Wikili wikidb http://www.lbgi.fr/wikili/index.php/Main_Page MediaWiki 1.30.0 first-letter Media Special Talk User User talk Wikili Wikili talk File File talk MediaWiki MediaWiki talk Template Template talk Help Help talk Category Category talk Main Page 0 1279 1279 2006-01-10T17:15:04Z 130.79.78.212 0 Page de bienvenue wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du LBGI (Laboratoire de BioInformatique et Génomique Intégratives) 90b4e50644c576db1fcab864e40c4b55ffe6e55e 1280 1279 2006-01-10T17:16:12Z 130.79.78.212 0 Page de bienvenue wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) 04786a476165f2842f31db34654f8724449abd10 1290 1280 2006-02-07T16:07:46Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Tout sur [[UCSGGenomes]] 71f902381aa9f93d0435a88d64b311bb3e807ab4 1295 1290 2006-03-22T09:20:08Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Tout sur [[UCSGGenomes]] Ou en est le serveur [[Kilida]] 1ac8c81ffa5cd43dba7b029375a913a6de69a0f2 1302 1295 2006-03-22T09:34:56Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSGGenomes]] 259cc64d6e23a93d32085948097b8c2c352b0703 1311 1302 2006-03-22T10:17:44Z Ripp 1 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] 13bb04f6c6a480b9ec596cb126c52561fe7b3447 1313 1311 2006-03-22T10:22:02Z 130.79.77.132 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] [[Macsim]] 29925f8be329489cac797f4b4bce7e6e2b4dbfb2 1315 1313 2006-03-22T14:31:24Z Ripp 1 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] [[Macsim]] [[Alvinella]] e93837b9b3d0a7f2e6367100b5716b42ac55fbe3 1316 1315 2006-03-22T16:51:28Z Ripp 1 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] [[Macsim]] [[Alvinella]] [[Fed]] Federating data 9d65aaf8a8c43e8137eb84e83c5cd802815c4428 1326 1316 2006-04-04T12:19:25Z 130.79.77.57 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] [[Macsim]] [[Alvinella]] [[Fed]] Federating data coucou adc8a6ba3298e85e2450c8fe8a3f4e8fd8d969d6 LBGI 0 1280 1281 2006-01-10T17:18:25Z 130.79.78.212 0 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Grand Chef [Olivier Poch] et toute la tribu 8d7389563cde362a5fdbe2925e93391cc5a2f461 1282 1281 2006-01-10T17:23:34Z 130.79.78.212 0 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Grand Chef [http://alnitak.u-strasbg.fr Olivier Poch] et toute la tribu 1c3891f029244f61a9bd67d6782e47a83bc298fd 1283 1282 2006-01-10T17:24:24Z 130.79.78.212 0 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Grand Chef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et toute la [http://alnitak.u-strasbg.fr/lbgi tribu] 73779cd8a2930de1fb13d1cdd930cd4a3ac91280 1284 1283 2006-01-10T17:24:47Z 130.79.78.212 0 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Grand Chef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et toute la [http://alnitak.u-strasbg.fr/lbgi tribu] ef63256596f27ac769c0a20618a0bc83791a1d62 1285 1284 2006-01-10T17:26:37Z 130.79.76.57 0 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Grand Chef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et toute la [http://alnitak.u-strasbg.fr/lbgi tribu] éditeur [[Laëtitia]]. 472f1912bbc2373bdbc544f1a891a9425dfb280a 1287 1285 2006-01-10T17:27:34Z 130.79.76.57 0 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Grand Chef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et toute la [http://alnitak.u-strasbg.fr/lbgi tribu] Le Wiki de [[Laëtitia]]. db4d1820ce4735ea311f3a83eaa444980e9791e5 1289 1287 2006-01-10T17:29:50Z 130.79.76.57 0 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et toute la [http://alnitak.u-strasbg.fr/lbgi tribu] Le Wiki de [[Laëtitia]]. 46f419e5778bb6d36e6ed57de7ed18b55af8060e Laëtitia 0 1281 1286 2006-01-10T17:26:56Z 130.79.76.57 0 wikitext text/x-wiki Coucou, c'est moi. 55e47cb313e2cc45bff15e508daa69d45d1ef4b5 1288 1286 2006-01-10T17:28:56Z 130.79.76.57 0 wikitext text/x-wiki Coucou, c'est moi. Ma [http://alnitak.u-strasbg.fr/~poidevin page] du labo. a24b69c24640281077f5c6748589101607be83f4 UCSGGenomes 0 1282 1291 2006-02-07T16:12:19Z 130.79.78.212 0 wikitext text/x-wiki Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human [[Gscope]] fournit des foonctions LocUcsc ListOf Access return la liste des Access LocUcsc ListOfMouse Access return la liste de Access pour Mouse only LocUcsc ListOfMouse Access return la liste de Access pour Mouse only d8885987a5fc6cd6cb26f388760eac0514a19b6f 1292 1291 2006-02-07T16:12:48Z 130.79.78.212 0 wikitext text/x-wiki Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human [[Gscope]] fournit des foonctions LocUcsc ListOf Access return la liste des Access LocUcsc ListOfMouse Access return la liste des Access pour Mouse only LocUcsc ListOfMouse Access return la liste des Access pour Mouse only f92196cb74b8743ff1310528edf792c1d2b1c38b 1293 1292 2006-02-07T16:13:19Z 130.79.78.212 0 wikitext text/x-wiki Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human [[Gscope]] fournit des foonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only 302c4cc1b52d5072779917cf8e2d327a8c721350 1294 1293 2006-02-07T16:15:09Z 130.79.78.212 0 wikitext text/x-wiki Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only f4d6d4228b60e4567c8d164c7024a3e56cb9b7e2 Kilida 0 1283 1296 2006-03-22T09:25:24Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] Kilida est un PC AMD Opteron qui tourne sous Fedora 4 Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partigé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) 92ef77e972628e39d464981f3970f725d8f17dd2 1297 1296 2006-03-22T09:27:59Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] Kilida est un PC AMD Opteron qui tourne sous Fedora 4 Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partigé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) Qu'y avait-il dans FC4 que nous utilisons pour le site ? */etc/httpd avec apache et php *mysql *postgresql ba30484291ad70702dde2f043acc94991d9e0904 1298 1297 2006-03-22T09:28:50Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] Kilida est un PC AMD Opteron qui tourne sous Fedora 4 Raymond a mis le système FC4 à partir du DVD fourni par Serge.<br/> Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partigé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) Qu'y avait-il dans FC4 que nous utilisons pour le site ?<br/> */etc/httpd avec apache et php *mysql *postgresql 72b1c00d0f1c90fbc7607e7927db869669b80d6e 1299 1298 2006-03-22T09:30:03Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] Kilida est un PC AMD Opteron qui tourne sous Fedora 4 Raymond a mis le système FC4 à partir du DVD fourni par Serge.<br/> Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partigé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) Qu'y avait-il dans FC4 que nous utilisons pour le site ?<br/> */etc/httpd avec apache et php *mysql *postgresql 48cde699c88a9942b55159b9200e720e4f0ac9c2 1300 1299 2006-03-22T09:30:52Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge.<br/> Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partigé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' */etc/httpd avec apache et php *mysql *postgresql b8133119ff785ba285b55f3d6788bb634be8b1ea 1301 1300 2006-03-22T09:31:30Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partigé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql a363eed36776b294a9844cd304f531392a61b3b0 1303 1301 2006-03-22T09:40:49Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le LBGI '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partigé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql 51c3111b22a99e0e918333e77ed169a272afb92f 1304 1303 2006-03-22T09:41:50Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://lbgi.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partigé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql 14a8d62f35855c2118dbb99f38a3165865434c6a 1305 1304 2006-03-22T09:42:27Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partigé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql d77ad6af812d0220982cd9af9cc562e2cb973dc9 1306 1305 2006-03-22T09:42:57Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql 61ee0125cd76f25b133e48c764fde784af379ea2 1307 1306 2006-03-22T09:51:26Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql * on a copié toute l'arborescence de Genoret sur /homeKilida il n'est évidemment pas à jour. 1c3649864a7764fc5b86c47a99a34ae2d588979e 1308 1307 2006-03-22T09:52:07Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Raymond a copié toute l'arborescence de Genoret sur /homeKilida il n'est évidemment pas à jour. 9a2a3e860c51cb35979a11a4c2120905d4e0904d 1309 1308 2006-03-22T09:53:44Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Raymond a copié toute l'arborescence de Genoret sur /homeKilida . Attention il n'est évidemment pas à jour. eb427715c35f88ac779a12eee9395eb92178746d 1310 1309 2006-03-22T09:54:11Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Raymond a copié toute l'arborescence de Genoret sur /homeKilida . Attention il n'est évidemment pas à jour. a2a6ad79e3d20d99a01643203611bf8e944701fd 1321 1310 2006-04-04T12:13:35Z 130.79.77.57 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Raymond a copié toute l'arborescence de Genoret sur /homeKilida . Attention il n'est évidemment pas à jour. ca6b642220ea0f1396b39cec162c3927c37067bc 1322 1321 2006-04-04T12:14:12Z 130.79.77.57 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Raymond a copié toute l'arborescence de Genoret sur [[/homeKilida]] . Attention il n'est évidemment pas à jour. bcb5eed9ba6b6908d367f4463aa1842d0de10ff0 1324 1322 2006-04-04T12:15:42Z 130.79.77.57 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. 1daff4f5e1aa7a4d0dc55517f9ceeed8e9fe313b 1327 1324 2006-04-24T09:34:28Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour par yum update le 24/04/2006 Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. c14b88ccd0403b72f64858cb006ca5554de1f6db 1328 1327 2006-04-24T09:35:40Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour par yum update le 24/04/2006 Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. 202985aac03090e4595a7776029152e22be06e45 1329 1328 2006-04-24T11:52:29Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour par le 24/04/2006 par * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. ab3a80fc5febde592f965fa86eee260a74fbff54 UCSCGenomes 0 1284 1312 2006-03-22T10:18:51Z Ripp 1 wikitext text/x-wiki Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only f4d6d4228b60e4567c8d164c7024a3e56cb9b7e2 Fed 0 1286 1317 2006-03-22T16:55:10Z Ripp 1 wikitext text/x-wiki We plan to create Fed as a tool combining a Website and a Sql Relational Database Fed consits of * a PostgreSQL Relational Database * a PHP base website using Html and Javascript It should allow to manage * people * worpackages * components * centres c36ac6fe24c3cd297a59241bf70b10860e7bf642 1318 1317 2006-04-04T09:21:20Z 130.79.78.212 0 wikitext text/x-wiki We plan to create Fed as a tool combining a Website and a Sql Relational Database Fed consits of * a PostgreSQL Relational Database * a PHP base website using Html and Javascript It should allow to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. c3dc2343c6834618c833172807c239dfeed01e43 Gscope 0 1287 1319 2006-04-04T09:32:47Z 130.79.78.212 0 wikitext text/x-wiki Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. 7a4e0d21a92237cf5a9b83d0bd9c40656d382b34 1320 1319 2006-04-04T09:43:42Z 130.79.78.212 0 wikitext text/x-wiki Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. Gscope is specially designed to perform high throughput analysis. Gscope is mainly composed of * all tools necessary to create the basic data * analysis tools * visualisation interface it allows also * the creation and feeding of SQL relational databases * the quering and display of the available information trhough a web based interface 8f59e3659ff073f98edf0a93876b64608093920d /homeKilida 0 1288 1323 2006-04-04T12:14:52Z 130.79.77.57 0 wikitext text/x-wiki /hoeKIlida est le disque local de Kilida de5331e2377475350bc05291cf1618b36d8a71e8 HomeKilida 0 1289 1325 2006-04-04T12:16:02Z 130.79.77.57 0 wikitext text/x-wiki /homeKilida est le disque local c34a27602ef138186d5ddda5ae578bd4b43feb74 Kilida 0 1283 1330 1329 2006-04-24T11:52:49Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. db271f0a84d39f6afc062d2772d117199ef12945 1342 1330 2006-05-02T14:54:05Z 130.79.78.212 0 wikitext text/x-wiki Kilida veut dire oeil en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par (CA PLANTE) * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * on fera bientôt l'upgrade en FC5 Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. d08a86f663e3d41e85b4a0cd6721938447809080 1343 1342 2006-05-02T14:56:38Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par (CA PLANTE) * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * on fera bientôt l'upgrade en FC5 Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. 816196799db4e9d0de4eb5522a588a643cdc24a4 1344 1343 2006-05-02T15:18:38Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * on fera bientôt l'upgrade en FC5 Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. bfd76fcf948314f083e8bb8ec7afba832a224b0d 1351 1344 2006-05-04T07:56:55Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Wikili est le wiki de Kilida Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * on fera bientôt l'upgrade en FC5 Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. f47f7618161796c120dd159bd8bcfef4b079ce09 1356 1351 2006-05-11T07:40:15Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. ==Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]== et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] =='''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''== Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Wikili est le wiki de Kilida Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * on fera bientôt l'upgrade en FC5 Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. 3e1bbb0f38eaa4efc95a235b52b0db985530ed54 1357 1356 2006-05-11T07:42:36Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Wikili est le wiki de Kilida Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * on fera bientôt l'upgrade en FC5 * [[Installation de CAPweb]], [[Installation de R]], [[Installation de Tcl/Tk]] Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. bfdb937f6f392146b147f09d4925302c4b94756d Main Page 0 1279 1331 1326 2006-04-24T12:07:53Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] [[Macsim]] [[Alvinella]] [[Fed]] Federating data [[CADO4MI ]] 9331e2e86dfe2587598d74a968e20d0adb062865 1332 1331 2006-04-24T12:08:05Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] [[Macsim]] [[Alvinella]] [[Fed]] Federating data [[CADO4MI]] c1db89efb88d65b565ca2a1bb1b1d77f5b255189 1336 1332 2006-04-24T12:12:58Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] [[Macsims]] [[Alvinella]] [[Fed]] Federating data [[CADO4MI]] 30735124633ece0bc086e586e60cdb00ec459a8f 1345 1336 2006-05-03T08:38:36Z 130.79.76.150 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] [[Macsims]] [[Alvinella]] [[Fed]] Federating data [[CADO4MI]] [[Magos]] 9d48232efc979f05011e0b13d8ec544f7c22feef 1348 1345 2006-05-04T07:45:16Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) Où en est le serveur [[Kilida]] Tout sur [[UCSCGenomes]] [[Macsims]] [[Alvinella]] [[Fed]] Federating data [[CADO4MI]] [[Magos]] [[Java]] a7eed920048b9e168700399645af1cffd0074c49 1363 1348 2006-05-15T13:17:36Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * Où en est le serveur [[Kilida]] * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] 6ed756ea7a4f3643fe106599f521fee9203e2643 1364 1363 2006-05-15T13:17:51Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * Où en est le serveur [[Kilida]] * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] e8ba0cb2171936c8e4c089470e8b4157102f72dd 1365 1364 2006-05-15T13:18:17Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * Où en est le serveur [[Kilida]] * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] 28be8710f1b5220bff333f32c54d8ce2bcfeb41e 1366 1365 2006-05-15T13:23:22Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] 1a3938043653f115527466d029948502e8f5457b CADO4MI 0 1290 1333 2006-04-24T12:09:53Z 130.79.78.212 0 wikitext text/x-wiki '''CADO4MI''' '''C'''omputer '''A'''ssisted '''D'''esign of '''O'''ligonucleotides '''for''' '''MI'''croarray 217f0bdd8b4dc3636f96ff939d950ad2b4f6d495 1334 1333 2006-04-24T12:10:48Z 130.79.78.212 0 wikitext text/x-wiki '''CADO4MI''' '''C'''omputer '''A'''ssisted '''D'''esign of '''O'''ligonucleotides '''for''' '''MI'''croarray website [http://bips.u-strasbg.fr/CADO4MI] 14393e2f6ad0a804af5dc6094687c30abf98a509 1335 1334 2006-04-24T12:11:22Z 130.79.78.212 0 wikitext text/x-wiki '''CADO4MI''' '''C'''omputer '''A'''ssisted '''D'''esign of '''O'''ligonucleotides '''for''' '''MI'''croarray see the [http://bips.u-strasbg.fr/CADO4MI website] 54456e33044fbb2b0ff013d8ae515984fcf05b38 HomeKilida 0 1289 1340 1325 2006-04-24T12:19:36Z 130.79.78.212 0 wikitext text/x-wiki /homeKilida est le disque local de Kilida On s'en sert actuellement pour être sûr de ne pas interférer avec les infos des autres disueq et machines. a55d480e301276cd39a0886b34d25f3472337a2d 1341 1340 2006-04-24T12:19:55Z 130.79.78.212 0 wikitext text/x-wiki /homeKilida est le disque local de Kilida On s'en sert actuellement pour être sûr de ne pas interférer avec les infos des autres disques et machines. 5672077e5638303b82f4ef203de4ef27c8d43a2b Java 0 1293 1349 2006-05-04T07:45:33Z 130.79.78.212 0 wikitext text/x-wiki lkslksl e08db34d22e71c75607a04987519df534f28ecac 1350 1349 2006-05-04T07:47:33Z 130.79.77.179 0 wikitext text/x-wiki langue 59797c0e68c3d058183ecab60152c9dbd1abaf75 1352 1350 2006-05-04T08:01:09Z 130.79.77.179 0 wikitext text/x-wiki language de programmation orienté objet. ==sources internes== *Lancement de programme externe a partir de java **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Exemple d'utilisation] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] 16ae79c2c9c4024d51e2fd841f210f1bf7327c29 1353 1352 2006-05-04T08:12:00Z 130.79.77.179 0 wikitext text/x-wiki language de programmation orienté objet. ==sources internes== *Lancement de programme externe a partir de java **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Exemple d'utilisation] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 5542bcc7ac57bf414644f5577f169ee05609445e 1354 1353 2006-05-04T08:25:23Z 130.79.77.179 0 wikitext text/x-wiki langage de programmation orienté objet. ==sources internes== *Lancement et synchronisation de programmes externe a partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Exemple d'utilisation] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 64de4663238fab56300791b44cd51c8004944874 1355 1354 2006-05-04T08:25:49Z 130.79.77.179 0 wikitext text/x-wiki langage de programmation orienté objet. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Exemple d'utilisation] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 81cb1a20b3b19ef3957fc93e13a3237ebe32af00 Installation de Tcl/Tk 0 1294 1358 2006-05-11T07:44:22Z 130.79.78.212 0 wikitext text/x-wiki Sur Kilida il y avait bien sûr le Tcl/Tk de /usr/local mais R voulait le package libtk8.4.so Il suffit de faire yum install tk et ce cher yum cherche ce qu'il faut où il faut. Merci Nicolas Gagnière. a0ebfaa5a677a5f1525ad9fa26847379b5edc50f 1359 1358 2006-05-11T07:44:42Z 130.79.78.212 0 wikitext text/x-wiki Sur Kilida il y avait bien sûr le Tcl/Tk de /usr/local mais R voulait le package libtk8.4.so Il suffit de faire yum install tk et ce cher yum cherche ce qu'il faut où il faut. Merci à Nicolas Gagnière. 279e8f6a4b8dc394e26e33b575f1c1df5ae80457 Installation de R 0 1295 1360 2006-05-11T07:47:01Z 130.79.78.212 0 wikitext text/x-wiki Le R de /usr/local ne marchait pas rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm il fallait installer tk.8.4.so avant (voir [[Installation Tcl/Tk]]) 818712791f54a71f61cf18e7b1568ba41e03e6fb 1361 1360 2006-05-11T07:47:35Z 130.79.78.212 0 wikitext text/x-wiki Le R de /usr/local ne marchait pas rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]]) d5d1951f111f7202437163f032ba3c81e2bfc2ec 1379 1361 2006-05-18T15:30:52Z 130.79.78.212 0 wikitext text/x-wiki Le R de /usr/local ne marchait pas rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]]) dans R > source("http://www.bioconductor.org/biocLite.R") > biocLite() 98c8cccb67e8e12994dc57b7cc907b9225ca8cf4 1380 1379 2006-05-18T15:31:34Z 130.79.78.212 0 wikitext text/x-wiki Le R de /usr/local ne marchait pas # rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm ## il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]]) # dans R ## > source("http://www.bioconductor.org/biocLite.R") > biocLite() 5036e3a4e988e3b213e726dacad95f2ae7be39cd 1381 1380 2006-05-18T15:32:11Z 130.79.78.212 0 wikitext text/x-wiki Le R de /usr/local ne marchait pas * rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm ** il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]]) * dans R ** > source("http://www.bioconductor.org/biocLite.R") ** > biocLite() 428b5e0378f80fa602fbd6a890819065b5cfaba2 1382 1381 2006-05-18T15:40:15Z 130.79.78.212 0 wikitext text/x-wiki Le R de /usr/local ne marchait pas * rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm ** il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]]) * dans R ** > source("http://www.bioconductor.org/biocLite.R") ** > biocLite() ** > source("http://www.bioconductor.org/getBioC.R") ** > getbioC() e321f365cce94c207cedebf43455db1dbd0b4e26 1383 1382 2006-05-19T07:50:46Z 130.79.78.212 0 wikitext text/x-wiki Le R de /usr/local ne marchait pas * rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm ** il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]]) * dans R ** > source("http://www.bioconductor.org/biocLite.R") ** > biocLite() ** > source("http://www.bioconductor.org/getBioC.R") ** > getbioC() * pour les packages de R ** R CMD INSTALL ~ripp/vrac/aws_1.3-2.tar.gz ** R CMD INSTALL R_PACKAGES/GLAD_1.3.0.tar.gz ** R CMD INSTALL R_PACKAGES/MANOR_1.3.0.tar.gz ** R CMD INSTALL R_PACKAGES/cluster_1.10.2.tar.gz ** R CMD INSTALL R_PACKAGES/Hmisc_3.0-7.tar.gz ad9c3bb31375aae2ff9da2f44cdf68dfd6e744af Installation de CAPweb 0 1296 1362 2006-05-11T07:52:10Z 130.79.78.212 0 wikitext text/x-wiki CAPweb # detarer dans /x/CAPweb_1.1 # modifier dans configure_CAPweb_variables.sh /usr/bin/bash et le rep destination # lancer en root configure_CAPweb_variables.sh # puis installer la database ## il faut mettre -p dans mysql -u root -p ... ## il faut rajouter session_start() en ligne 2 dans les .php où figure $_SESSION (Gscope CorrigeCAPweb le fait en automatique) 1ae1bfe0e5b21e9a1274bf13460446877acc7510 Source de données 0 1297 1367 2006-05-15T13:27:14Z 130.79.78.212 0 wikitext text/x-wiki Où sont stockées nos données, et comment y accéder : * Les projets Gscope ** [[UCSCGenome]] ** [[ProGS]] ** [[RetChip]] ** [[RetGene]] ** * Les bases de données SQL ** [[Genoret Database]] ** [[Retinobase]] 473788aa921d8b79a9477eee702d54768cb932d6 1368 1367 2006-05-15T13:28:04Z 130.79.78.212 0 wikitext text/x-wiki Où sont stockées nos données, et comment y accéder : * Les projets Gscope ** [[UCSCGenomes]] ** [[ProGS]] ** [[RetChip]] ** [[RetGene]] ** * Les bases de données SQL ** [[Genoret Database]] ** [[Retinobase]] 64e72a5b36739809621b45b858fe8a8994ffbbfe 1378 1368 2006-05-16T06:57:17Z 130.79.78.212 0 wikitext text/x-wiki Où sont stockées nos données, et comment y accéder : * Les projets Gscope ** [[UCSCGenomes]] ** [[ProGS]] ** [[RetChip]] ** [[RetGene]] ** * Les bases de données SQL ** [[Genoret Database]] ** [[Retinobase]] * Les moyens d'accès ** Les procédures Tcl de Gscope ** Gscope en ligne de commande ** Gscope en café des sciences ** Gscope en serveur web ** Les bases SQL 1493cc05565b0f81a0d310be1d5262cda8638691 ProGS 0 1298 1369 2006-05-15T13:33:16Z 130.79.78.212 0 wikitext text/x-wiki ProGS est la base de données Gscope Clonage Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule ! En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une ètude Gscope de la séquence au Macsim de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales. ProGS est accessible par web à [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS] 49dc42d12152b464f34d3d2982d0cc9882c65606 1370 1369 2006-05-15T13:36:31Z 130.79.78.212 0 wikitext text/x-wiki ProGS est la base de données Gscope Clonage Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule ! En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une ètude Gscope de la séquence au Macsim de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales. ProGS est accessible par web à travers [[GscopeHtmlServer]] [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS] 27d8fa7a5b88f3a79d8ffb1444981842c7aa8e31 1384 1370 2006-05-24T15:53:52Z 130.79.78.212 0 wikitext text/x-wiki ProGS est la base de données Gscope Clonage Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule ! En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une étude Gscope de la séquence au Macsim de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales. ProGS est accessible par web à travers [[GscopeHtmlServer]] [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS] Il faudrait développer Gscope Clonage en base de données SQL ... 6c63d544b840d1c655bff1cba843e86c18e0d593 RetChip 0 1299 1371 2006-05-16T06:29:12Z 130.79.78.212 0 wikitext text/x-wiki RetChip est un projet Gscope qui recense les gènes de la rétine. Développé par Laëtitia Poidevin 2fab22b9120d96c2c4427854d04994ee5b6ce87a RetGene 0 1300 1372 2006-05-16T06:42:53Z 130.79.78.212 0 wikitext text/x-wiki RetGene est un projet Gscope qui concerne les séquences des gène de la rétine dont la mutation provoque des maladies. f7ca2f1b106659639352c84dfc6160db384a0ae6 Retinobase 0 1301 1373 2006-05-16T06:45:10Z 130.79.78.212 0 wikitext text/x-wiki RetinaBase is a SQL database concerning the transcriptomics data for the retina. d4857821965d0968800c6753d40e1dc1adea88a6 1374 1373 2006-05-16T06:45:56Z 130.79.78.212 0 wikitext text/x-wiki RetinoBase is a SQL database concerning the transcriptomics data for the retina. 3705f20e625a1a579efc63d59ab68850b851b19a Genoret Database 0 1302 1375 2006-05-16T06:50:33Z 130.79.78.212 0 wikitext text/x-wiki The Genoret Database is a SQL database and a PHP website centrelazing the information for the EVI-Genoret Integrated Project. See [http://www-genoret.u-strasbg.fr/wikigenoret WikiGenoret] 6e4088030c2682d7a2f54b8233da81b109693003 1376 1375 2006-05-16T06:50:55Z 130.79.78.212 0 wikitext text/x-wiki The Genoret Database is a SQL database and a PHP website centrelazing the information for the EVI-Genoret Integrated Project. See [http://www-genoret.u-strasbg.fr/genoret/wikigenoret WikiGenoret] b61c32da90bbebc4723ac31394f869d40a9aab6f 1377 1376 2006-05-16T06:51:39Z 130.79.78.212 0 wikitext text/x-wiki The Genoret Database is a SQL database and a PHP website centrelazing the information for the EVI-Genoret Integrated Project. See [http://www-genoret.u-strasbg.fr/genoret/wiki WikiGenoret] 0994f04915b465507fb1e66303b68dee4dd3ff9c Java 0 1293 1385 1355 2006-06-01T07:33:20Z 130.79.77.179 0 /* sources internes */ wikitext text/x-wiki langage de programmation orienté objet. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 2af4e2d6a4add3849b296f8d3a48c20ffcdd019f 1387 1385 2006-06-01T07:52:52Z 130.79.77.179 0 wikitext text/x-wiki langage de programmation orienté objet. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 88e34216aa699cac22de97cf0dfbc7c3ebfb0d40 1392 1387 2006-06-16T12:56:33Z Dkieffer 2 wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] affe36ae49a891aa66c530f8bdeb0a5cf8454813 1395 1392 2006-06-16T14:05:37Z Dkieffer 2 wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur alnitak et dans "/usr/opt/java141/bin" sur beaufort. Bientôt installé sur star6. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 5e4809724809403988cede37e3a9ad15064cd766 1396 1395 2006-06-16T14:06:09Z Dkieffer 2 wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur alnitak et dans "/usr/opt/java141/bin" sur beaufort. Bientôt installé sur star6 en version 1.5. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 0b8a7a7f3d150d05c59de297d80462ef9448f0c3 1397 1396 2006-06-16T16:07:15Z Dkieffer 2 /* Librairies internes */ wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur alnitak et dans "/usr/opt/java141/bin" sur beaufort. Bientôt installé sur star6 en version 1.5. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsFile.zip ToolsFile Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 3aad2ff290ac7fa0c6b1eb16510cb25ba395282a 1399 1397 2006-06-19T08:23:00Z Dkieffer 2 wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur alnitak et dans "/usr/opt/java141/bin" sur beaufort. Installé sur star6 en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsFile.zip ToolsFile Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 012d0351444dff3b13a3bf8919b7c132798fe443 1400 1399 2006-06-19T08:23:44Z Dkieffer 2 wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsFile.zip ToolsFile Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 9f50a261a9bd8c31da02b9a80302dfde794ce793 1401 1400 2006-06-19T09:36:34Z Dkieffer 2 /* Librairies internes */ wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 7962d6afd695030d82e915ab520ccbd785f0e916 1403 1401 2006-06-19T09:50:40Z Dkieffer 2 /* sources internes */ wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] f54c6d8c67c0998a08fab3d10eaa32fd77eb87be 1404 1403 2006-06-19T15:49:03Z Dkieffer 2 /* sources internes */ wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 70b6543f19ba7a9c3163f7531742749a4b79d418 1405 1404 2006-06-20T16:33:15Z Dkieffer 2 wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] *Fonction BioJava utiles **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] f53c4c1a4e56457495fd1110140176d8725f1639 1406 1405 2006-06-20T16:37:21Z Dkieffer 2 wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] *Fonctions BioJava utiles **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies internes== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] 1856fcefb3abbfc9f56dc953782dd5c2e17a8c60 1410 1406 2006-06-28T15:39:57Z Dkieffer 2 wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] *Fonctions BioJava utiles **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies internes== Pour des raisons de compatibilité ces librairie sont en 1.4. N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] [http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava] ef0333631f37699d84ce772fc96fbd8db0916512 1411 1410 2006-06-28T15:40:14Z Dkieffer 2 /* liens */ wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] *Fonctions BioJava utiles **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies internes== Pour des raisons de compatibilité ces librairie sont en 1.4. N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] 8dd6013893c19708483856319848a3752508ca89 1412 1411 2006-06-29T08:51:21Z Dkieffer 2 /* Librairies internes */ wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] *Fonctions BioJava utiles **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] 0a86787f42f2dee9850d03623544dba4cc46b340 1414 1412 2006-07-10T10:04:12Z Dkieffer 2 /* sources internes */ wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] *Fonctions BioJava utiles **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ***Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du featuire eu feature</feature> <sequence>.AAAALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIWM</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequences</comments> <sequence>AALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIW</sequence> </rich_sequence> </rsf> ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] 538ae757c9fef8c250cbbe8baf3db6348d998347 1415 1414 2006-07-10T12:03:15Z Dkieffer 2 /* sources internes */ wikitext text/x-wiki langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== *Lancement et synchronisation de programmes externes à partir de java: **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] *Fonctions BioJava utiles **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] ***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ***Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>.AAAALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIWM</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>AALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIW</sequence> </rich_sequence> </rsf> ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] e9ed3c0dfb02fe7791895448afc92405dea0f8b2 1416 1415 2006-07-17T09:39:22Z Dkieffer 2 wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>.AAAALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIWM</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>AALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIW</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] 74eb5bf2a200a5fd80c169e078968ec1402fc8dc 1417 1416 2006-07-17T13:28:45Z Dkieffer 2 /* Fonctions BioJava utiles */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYPIEHGIITNWDDMEKIWHHTFYNELRVAP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] 36df7d965d179b2f159f34a7386489c521f9cbfc 1418 1417 2006-07-17T13:29:26Z Dkieffer 2 /* Fonctions BioJava utiles */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://biojava.org/wiki/Main_Page Biojava] 631013de48ce0f187bb58495cee5388b9ab0918a 1419 1418 2006-07-19T08:34:39Z Dkieffer 2 /* liens */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://biojava.org/wiki/Main_Page Biojava] f69af57c644dfb479a83443a192a12d0673f20f2 1420 1419 2006-07-19T08:53:07Z Dkieffer 2 /* liens */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://biojava.org/wiki/Main_Page Biojava] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] 416d1d09f5c8e1e1b63e5a59f6c8ea0db6367909 1423 1420 2006-09-25T11:07:45Z 130.79.77.179 0 /* Où trouver les fichiers pour l'execution? */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 pour l'instant sur [[kilida]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://biojava.org/wiki/Main_Page Biojava] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] a8c1acd1fe3a6f127fcd4a69f1aa7b0661d58241 1426 1423 2006-11-20T11:00:21Z 130.79.77.179 0 /* liens */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 pour l'instant sur [[kilida]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==liens== [http://java.sun.com/ site officiel de sun] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://biojava.org/wiki/Main_Page Biojava] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] 912f03ac15e0e84372164536f097efc7471b756c 1427 1426 2006-11-21T08:24:02Z Gagniere 3 wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 pour l'instant sur [[kilida]] et dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies== [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 5f0f2203ccf412c3dd6d591f72c7fe126de42774 1428 1427 2006-11-21T08:25:34Z Gagniere 3 /* Où trouver les fichiers pour l'execution? */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies== [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 811436f05b3c4982b616c6282551f84865fbcd34 1429 1428 2006-11-22T08:20:50Z 130.79.77.179 0 /* Librairies internes */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ==Librairies== [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] ee3d1fb6f2b899cddd9a665a313c0611b453e15d File:2cvPortieres.JPG 6 1303 1386 2006-06-01T07:34:25Z Ripp 1 belles portes wikitext text/x-wiki belles portes 247ad11971b8d366476020bbecd7fe01c8224ccd File:DSCN1323avecZ.JPG 6 1304 1388 2006-06-01T07:55:10Z Ripp 1 avec commentaires wikitext text/x-wiki avec commentaires aa11936eae4f2243ab9d9fc3587fb46f29c83933 Kilida 0 1283 1389 1357 2006-06-07T14:25:15Z Ripp 1 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Wikili est le wiki de Kilida Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * on a fait l'upgrade en FC5 * [[Installation de CAPweb]], [[Installation de R]], [[Installation de Tcl/Tk]] Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. b11b5e761935b732ff3de97dd2046c472cd8d764 1390 1389 2006-06-07T14:27:16Z Ripp 1 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] Wikili est le wiki de Kilida '''Kilida est un PC AMD Opteron qui tourne sous Fedora 4''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * on a fait l'upgrade en FC5 * [[Installation de CAPweb]], [[Installation de R]], [[Installation de Tcl/Tk]] Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. 69ded98fe8dfcfa793a79b7e68a8ce85b1acf9b5 1391 1390 2006-06-07T14:31:10Z Ripp 1 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] Wikili est le wiki de Kilida '''Kilida est un PC AMD Opteron qui tourne sous Fedora''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * [[Installation de CAPweb]] * [[Installation de R]] * [[Installation de Tcl/Tk]] Upgrade en FC5 * en bootant sur le DVD FC5 on demande la misa à jour * il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. ac7c2c712be071a81d87d1fef13f43da9721c855 1398 1391 2006-06-19T08:05:43Z Ripp 1 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] Wikili est le wiki de Kilida '''Kilida est un PC AMD Opteron qui tourne sous Fedora''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * [[Installation de CAPweb]] * [[Installation de R]] * [[Installation de Tcl/Tk]] '''Upgrade en FC5''' * en bootant sur le DVD FC5 on demande la misa à jour * il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] . Attention il n'est évidemment pas à jour. b91fec01aae0c9972e45b65069e66537eb8f6fa6 1402 1398 2006-06-19T09:47:22Z Ripp 1 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] Wikili est le wiki de Kilida '''Kilida est un PC AMD Opteron qui tourne sous Fedora''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * [[Installation de CAPweb]] * [[Installation de R]] * [[Installation de Tcl/Tk]] '''Upgrade en FC5''' * en bootant sur le DVD FC5 on demande la misa à jour * il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida. Comment ? * dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx 1b9f4dcf5b9a1d27e8e542115a1920c468a3ab5f 1407 1402 2006-06-28T10:31:42Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] Wikili est le wiki de Kilida '''Kilida est un PC AMD Opteron qui tourne maintenant sous Ubuntu''' tout ce qui suit est à mettre à jour '''Kilida est un PC AMD Opteron qui tournait sous Fedora''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * [[Installation de CAPweb]] * [[Installation de R]] * [[Installation de Tcl/Tk]] '''Upgrade en FC5''' * en bootant sur le DVD FC5 on demande la misa à jour * il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida. Comment ? * dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx dca21e3abf255ee7bc0ccc9aa94b9b565a56b0d1 1408 1407 2006-06-28T11:40:42Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] Wikili est le wiki de Kilida '''Kilida est un PC AMD Opteron qui tourne maintenant sous Ubuntu''' voir [[Installation de Ubuntu]] tout ce qui suit est à mettre à jour '''Kilida est un PC AMD Opteron qui tournait sous Fedora''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * [[Installation de CAPweb]] * [[Installation de R]] * [[Installation de Tcl/Tk]] '''Upgrade en FC5''' * en bootant sur le DVD FC5 on demande la misa à jour * il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida. Comment ? * dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx d784c1ff6db2ab0f613f38797d8f6d7da105b0c3 1413 1408 2006-07-03T09:04:58Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] Wikili est le wiki de Kilida '''Kilida est un PC AMD Opteron qui tourne maintenant sous Ubuntu''' voir [[Installation de Ubuntu]] tout ce qui suit est à mettre à jour Obsolete :'''Kilida est un PC AMD Opteron qui tournait sous Fedora''' Raymond a mis le système FC4 à partir du DVD fourni par Serge. Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local qui est partagé avec les autres LINUX <br/> Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient) Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug) Obsolete : '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?''' * /etc/httpd avec apache et php * mysql * postgresql Obsolete : Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche ! * yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux * ... hélas il se plante en plein milieu ... et ne bouge plus. * on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran) * on le met dans le bocal central * yum update reprend bien ou il faut et se termine correctement ! * [[Installation de CAPweb]] * [[Installation de R]] * [[Installation de Tcl/Tk]] 'Obsolete : ''Upgrade en FC5''' * en bootant sur le DVD FC5 on demande la misa à jour * il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida. Comment ? * dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx 7456b03e57c68dbf24bf9da6c4eaf1ccc243a17e User:Dkieffer 2 1305 1393 2006-06-16T13:52:38Z Dkieffer 2 wikitext text/x-wiki Stagiaire 2006 2ae6134660b36ca02487fc5f6674ba16f32fa4be User talk:Dkieffer 3 1306 1394 2006-06-16T13:54:15Z Dkieffer 2 wikitext text/x-wiki j'aime le java. d81f6945b872b0ad68b57546a95d35a913efb301 Installation de Ubuntu 0 1307 1409 2006-06-28T11:48:57Z 130.79.78.212 0 wikitext text/x-wiki Ubuntu est un Linux issu de Debian On part du DVD fourni par Ubuntu * On boote dessus ... ** Il demande quoi faire (on prend le 1er avec graphique) ** Il charge un Linux complet sans toucher aux disques ** Sur le bureau il y a une icone "Install" ** Il demande alors sur quel disque ... les partitions à faire etc. ** Tout est graphique et facile. 21ad83e8fb813ebaa3aca2c9ef8060913d9e525a 1424 1409 2006-11-17T08:08:24Z 130.79.78.212 0 wikitext text/x-wiki Ubuntu est un Linux issu de Debian voir [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PublicDirectory/systeme/UbuntuInstallation.txt Installation Ubuntu] par Nicolas et Raymond On part du DVD fourni par Ubuntu * On boote dessus ... ** Il demande quoi faire (on prend le 1er avec graphique) ** Il charge un Linux complet sans toucher aux disques ** Sur le bureau il y a une icone "Install" ** Il demande alors sur quel disque ... les partitions à faire etc. ** Tout est graphique et facile. bdf3def2bc1a8a625054d8413979f256f69de79b Source de données 0 1297 1421 1378 2006-09-04T13:22:27Z 130.79.78.212 0 wikitext text/x-wiki Où sont stockées nos données, et comment y accéder : * Les projets Gscope ** [[UCSCGenomes]] ** [[ProGS]] ** [[RetChip]] ** [[RetGene]] ** * Les bases de données SQL ** [[Genoret Database]] ** [[Retinobase]] ** [[GenoretGenes]] * Les moyens d'accès ** Les procédures Tcl de Gscope ** Gscope en ligne de commande ** Gscope en café des sciences ** Gscope en serveur web ** Les bases SQL 08295db7429541369b85501e61cbfda6f2a576f4 GenoretGenes 0 1308 1422 2006-09-04T13:27:47Z 130.79.78.212 0 wikitext text/x-wiki GenoretGenes est la base de données construite sur le projet [[Gscope]] EVImm Il centralise les informations concernant les gènes de la rétine. Cette base est maintenue par [[Laëtitia Poidevin]] voir aussi le site WikiGenoret de [http://www-genoret.u-strasbg.fr/Wikigenoret/GenoretGenes GenoretGenes] et le site web [http://www-bio3d-igbmc.u-strasbg.fr/GenoretGenes GenoretGenes] 41b4998bf59ec7953473c004fb8090c45081de7b UCSCGenomes 0 1284 1432 1312 2006-11-28T13:03:40Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beuacoup de choses : * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips ou bigZips200405 etc. Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only fd5fb6117146ceaa6a035e286798a1ac78fc4e57 1433 1432 2006-11-28T14:03:11Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beuacoup de choses : * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only 1badf10f001514d32d2d21ecb8624f3b35500725 Main Page 0 1279 1434 1366 2006-11-28T22:33:41Z Shagman 4 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] <div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;"> [http://casino-games-wiki.com/index.php/casino_games casino games] [http://casino-games-wiki.com/index.php/online_casino_games online casino games] [http://casino-games-wiki.com/index.php/casino_games_online casino games online] [http://adipex-wiki.com/index.php/adipex adipex] [http://adipex-wiki.com/index.php/buy_adipex buy adipex] [http://adipex-wiki.com/index.php/adipex_online adipex online] [http://tramadol-wiki.com/index.php/tramadol tramadol] [http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div> c916137f2648191e3fd0d2138fabd9d8aee4a13f Alvinella 0 1311 1438 2006-12-03T21:52:05Z 64.27.20.205 0 wikitext text/x-wiki 48053369391600495951863 0f3f160b4f70405929a4418daf50d0225db1fc2f 1442 1438 2006-12-13T19:33:58Z 148.233.159.57 0 wikitext text/x-wiki 48053369391600495951863 <br><br><u style="display:none;">[http://blogs.ebay.com/predyava Buy Generic Cialis]<br>[http://blogs.ebay.com/predyava Buy Cialis 20 mg]<br>[http://blogs.ebay.com/predyava Cheap Generic Cialis 20mg]<br>[http://blogs.ebay.com/predyava Buy Cheap Cialis]<br>[http://blogs.ebay.com/predyava Buy Generic Cialis 20 mg]</u> 2681cf4f236955f404fb1f50db9bd04d9f407206 1445 1442 2006-12-14T16:29:35Z 80.227.0.153 0 wikitext text/x-wiki 48053369391600495951863 <br><br><u style="display:none;">[http://blogs.ebay.com/predyava Buy Generic Cialis]<br>[http://blogs.ebay.com/predyava Buy Cialis 20 mg]<br>[http://blogs.ebay.com/predyava Cheap Generic Cialis 20mg]<br>[http://blogs.ebay.com/predyava Buy Cheap Cialis]<br>[http://blogs.ebay.com/predyava Buy Generic Cialis 20 mg]</u> <br><br><u style="display:none;">[http://phenotropil.romandie.com/ Buy Generic Levitra]<br>[http://phenotropil.romandie.com/ Buy Levitra Online]<br>[http://phenotropil.romandie.com/ Buy Generic Levitra 20 mg]<br>[http://phenotropil.romandie.com/ Buy Levitra Online]<br>[http://phenotropil.romandie.com/ Buy Generic Levitra 20mg]</u> c6fb1fc33d87700ec0ac86f1954c810600f0f7db Java 0 1293 1446 1429 2006-12-19T09:55:38Z 130.79.77.179 0 /* sources internes */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 7041da99fc86067664add01aa5329355a9e986dc 1447 1446 2006-12-19T10:00:04Z 130.79.77.179 0 /* sources internes */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes en multiThread à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 4c0d6c7c687f826141d0ed1a2303b0b2aaaf18b9 1448 1447 2006-12-19T10:00:47Z 130.79.77.179 0 /* sources internes */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes en multiThread à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 18e97f53f1b53ed1cad0bf7c6676fbb710a4c24a 1459 1448 2006-12-20T13:32:48Z 130.79.77.179 0 /* Librairies */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. ==sources internes== ===Lancement et synchronisation de programmes externes en multiThread à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] a1f7d338728cc9b24a3ecc07d2021c5b7b74709a Main Page 0 1279 1449 1434 2006-12-19T10:10:15Z 130.79.77.179 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] * [[Unix]] <div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;"> [http://casino-games-wiki.com/index.php/casino_games casino games] [http://casino-games-wiki.com/index.php/online_casino_games online casino games] [http://casino-games-wiki.com/index.php/casino_games_online casino games online] [http://adipex-wiki.com/index.php/adipex adipex] [http://adipex-wiki.com/index.php/buy_adipex buy adipex] [http://adipex-wiki.com/index.php/adipex_online adipex online] [http://tramadol-wiki.com/index.php/tramadol tramadol] [http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div> 0470dc3b9d76a4f5a8d6efaa6047bb308a71da27 1458 1449 2006-12-20T09:46:44Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * [[Café des sciences]] sur Ouragan ou autre ... * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] * [[Unix]] <div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;"> [http://casino-games-wiki.com/index.php/casino_games casino games] [http://casino-games-wiki.com/index.php/online_casino_games online casino games] [http://casino-games-wiki.com/index.php/casino_games_online casino games online] [http://adipex-wiki.com/index.php/adipex adipex] [http://adipex-wiki.com/index.php/buy_adipex buy adipex] [http://adipex-wiki.com/index.php/adipex_online adipex online] [http://tramadol-wiki.com/index.php/tramadol tramadol] [http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div> 3b27f86491b321f480adb6326b4c6eea44ca30dd 1464 1458 2006-12-21T16:52:15Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * [[Bird]] ... Hoan est disponible ! * [[Café des sciences]] sur Ouragan ou autre ... * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] * [[Unix]] <div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;"> [http://casino-games-wiki.com/index.php/casino_games casino games] [http://casino-games-wiki.com/index.php/online_casino_games online casino games] [http://casino-games-wiki.com/index.php/casino_games_online casino games online] [http://adipex-wiki.com/index.php/adipex adipex] [http://adipex-wiki.com/index.php/buy_adipex buy adipex] [http://adipex-wiki.com/index.php/adipex_online adipex online] [http://tramadol-wiki.com/index.php/tramadol tramadol] [http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div> 0aa36e162dcb47a66441ac8c762fd3e7c7281f04 1485 1464 2007-01-19T09:34:12Z Dkieffer 2 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * [[Bird]] ... Hoan est disponible ! * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] * [[Unix]] <div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;"> [http://casino-games-wiki.com/index.php/casino_games casino games] [http://casino-games-wiki.com/index.php/online_casino_games online casino games] [http://casino-games-wiki.com/index.php/casino_games_online casino games online] [http://adipex-wiki.com/index.php/adipex adipex] [http://adipex-wiki.com/index.php/buy_adipex buy adipex] [http://adipex-wiki.com/index.php/adipex_online adipex online] [http://tramadol-wiki.com/index.php/tramadol tramadol] [http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div> 02ecdb1d3eb4b141094891ef3cf76c1cabe945ee 1491 1485 2007-01-23T15:03:21Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] * [[Unix]] <div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;"> [http://casino-games-wiki.com/index.php/casino_games casino games] [http://casino-games-wiki.com/index.php/online_casino_games online casino games] [http://casino-games-wiki.com/index.php/casino_games_online casino games online] [http://adipex-wiki.com/index.php/adipex adipex] [http://adipex-wiki.com/index.php/buy_adipex buy adipex] [http://adipex-wiki.com/index.php/adipex_online adipex online] [http://tramadol-wiki.com/index.php/tramadol tramadol] [http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div> 8453487421ff71c383e62599004d38698e1a0ee2 1498 1491 2007-02-01T08:19:48Z Dkieffer 2 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] * [[Unix]] * [[logiciels]] disponibles sur les serveurs. <div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;"> [http://casino-games-wiki.com/index.php/casino_games casino games] [http://casino-games-wiki.com/index.php/online_casino_games online casino games] [http://casino-games-wiki.com/index.php/casino_games_online casino games online] [http://adipex-wiki.com/index.php/adipex adipex] [http://adipex-wiki.com/index.php/buy_adipex buy adipex] [http://adipex-wiki.com/index.php/adipex_online adipex online] [http://tramadol-wiki.com/index.php/tramadol tramadol] [http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div> c68a3a1cd138c25cc412677bf5ba2e5462dd5a76 1500 1498 2007-02-01T08:32:29Z Dkieffer 2 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] * [[Macsims]] * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[Java]] * [[Unix| aide Unix]] * [[logiciels]] disponibles sur les serveurs. <div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;"> [http://casino-games-wiki.com/index.php/casino_games casino games] [http://casino-games-wiki.com/index.php/online_casino_games online casino games] [http://casino-games-wiki.com/index.php/casino_games_online casino games online] [http://adipex-wiki.com/index.php/adipex adipex] [http://adipex-wiki.com/index.php/buy_adipex buy adipex] [http://adipex-wiki.com/index.php/adipex_online adipex online] [http://tramadol-wiki.com/index.php/tramadol tramadol] [http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div> 6974bed0fb02e6d7e837684ad5bdd63291d4b263 Unix 0 1312 1450 2006-12-19T10:28:42Z Dkieffer 2 wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandex Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |} fee2e8886ae425cc69a833bed1584f867be84f3e 1451 1450 2006-12-19T12:29:01Z Dkieffer 2 /* Manipulation des fichiers et des répertoires */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandex Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- | | |} 44f57aff1e4102f32f5256d7ed7c81a22c16db71 1452 1451 2006-12-19T12:40:33Z Dkieffer 2 /* Manipulation des fichiers et des répertoires */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandex Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} e07d1012e615c05de54fe6a0010105969706e00c 1460 1452 2006-12-21T09:20:38Z 130.79.77.179 0 wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commande Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- 0e5dc628937bbc34570eb39f56f7ead579996e8f 1461 1460 2006-12-21T10:54:59Z Dkieffer 2 /* Commande Unix */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commande Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- 4056da08c64aac99014eb759baa1d5c54472431f 1462 1461 2006-12-21T13:00:59Z Dkieffer 2 /* Commande Unix */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- 5e0575fcea02816aff0985d5b83a861ce1fd1282 1463 1462 2006-12-21T13:38:11Z Dkieffer 2 /* Commandes Unix */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |} =sources= Initiation à la bioinformatique O'Reilly aefd5d0b5005051022235ade883abd4e29ffe7c0 1474 1463 2007-01-02T16:35:20Z 130.79.77.179 0 /* Visualisation et traitement de fichiers */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |} =sources= Initiation à la bioinformatique O'Reilly efa9a46a29f18008a0ee11b5c2507c3ca7c1c34b 1475 1474 2007-01-02T16:40:56Z Dkieffer 2 /* Visualisation et traitement de fichiers */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |} =sources= Initiation à la bioinformatique O'Reilly 5783e0cf15e175e51b2375c0638e39e16e5c66d5 1476 1475 2007-01-02T16:50:04Z Dkieffer 2 wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =sources= Initiation à la bioinformatique O'Reilly 7d935213bff80d2e84dfd530e52347b8cc6062e4 1477 1476 2007-01-02T16:54:03Z Dkieffer 2 /* commandes relatifs à l'environnement multi-utilisateurs */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =sources= Initiation à la bioinformatique O'Reilly 3d8d1f4ec436c7c2228a93b2566692fdac349bc5 1478 1477 2007-01-02T16:54:43Z Dkieffer 2 /* commandes relatifs à l'environnement multi-utilisateurs */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =sources= Initiation à la bioinformatique O'Reilly a11e00fedbf634f5b989181a218d63b0631e32a3 UCSCGenomes 0 1284 1453 1433 2006-12-19T15:43:20Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beuacoup de choses : Y a du neuf ! Y a du neuf ! Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2) On y a accès par * En mode console ** setbird ** bird_explorer_ucsc query outfile format=(flat|xml) display=(yes|no) * par webservice ** on attend l'url de Hoan * par gscope (la suite est à confirmer par oue) ** Bird Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie) ** NPduNM NM rend le NP ** GenesFromZone Debut Fin Orga Chr Strand FromWhere ** LocIn Position Orga Chro Strand ** LocAfter Position Orga Chro Strand ** LocBefore Posotion Orga Chro Strand * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only 09f19ec64d171ccc546d68e1e95b4d3724c5b339 1454 1453 2006-12-19T15:46:22Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beuacoup de choses : Y a du neuf ! Y a du neuf ! Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2) On y a accès par * En mode console ** setbird ** bird_explorer_ucsc query outfile format=(flat|xml) display=(yes|no) * par webservice ** on attend l'url de Hoan * par gscope (la suite est à confirmer par oue) ** Bird Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie)) ** NPduNM NM (rend le NP) ** GenesFromZone Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R)) ** LocIn Position Orga Chro Strand ** LocAfter Position Orga Chro Strand ** LocBefore Position Orga Chro Strand * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only 4cd35e7aa7b7694eb8ded4861dffc71673195ca5 1455 1454 2006-12-19T15:47:16Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beuacoup de choses : Y a du neuf ! Y a du neuf ! Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2) On y a accès par * En mode console ** '''setbird''' ** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no) * par webservice ** on attend l'url de Hoan * par gscope (la suite est à confirmer par oue) ** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie)) ** '''NPduNM''' NM (rend le NP) ** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R)) ** '''LocIn''' Position Orga Chro Strand ** '''LocAfter''' Position Orga Chro Strand ** '''LocBefore''' Position Orga Chro Strand * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only 51e558db1033f5321d7482fca8be19318fdae043 1456 1455 2006-12-19T15:48:02Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beuacoup de choses : Y a du neuf ! Y a du neuf ! Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2) On y a accès par * En mode console ** '''setbird''' ** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no) * par webservice ** on attend l'url de Hoan * par '''gscope''' (la suite est à confirmer par '''oue''') ** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie)) ** '''NPduNM''' NM (rend le NP) ** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R)) ** '''LocIn''' Position Orga Chro Strand ** '''LocAfter''' Position Orga Chro Strand ** '''LocBefore''' Position Orga Chro Strand * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only fca596d813f6ff7b078b71b3e72fdf5d71702048 1481 1456 2007-01-10T13:23:33Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beaucoup de choses : Attention: les positions des nucléotides dans UCSC sont compées à partir de 0 Il y a donc un décalage de 1. Y a du neuf ! Y a du neuf ! Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2) On y a accès par * En mode console ** '''setbird''' ** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no) * par webservice ** on attend l'url de Hoan * par '''gscope''' (la suite est à confirmer par '''oue''') ** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie)) ** '''NPduNM''' NM (rend le NP) ** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R)) ** '''LocIn''' Position Orga Chro Strand ** '''LocAfter''' Position Orga Chro Strand ** '''LocBefore''' Position Orga Chro Strand * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only 72428d9c727f03bd289210695cad2bda70239a39 1482 1481 2007-01-10T13:37:56Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beaucoup de choses : Attention: les positions des nucléotides dans UCSC sont compées à partir de 0 Il y a donc un décalage de 1. Y a du neuf ! Y a du neuf ! ==Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2)== On y a accès par * En mode console ** '''setbird''' ** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no) * par webservice ** on attend l'url de Hoan * par '''gscope''' (la suite est à confirmer par '''oue''') ** '''BirdGetFields''' NM f1,f2,f3 ** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie)) ** '''NPduNM''' NM (rend le NP) ** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R)) ** '''LocIn''' Position Orga Chro Strand ** '''LocAfter''' Position Orga Chro Strand ** '''LocBefore''' Position Orga Chro Strand ==Les séquences== * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 ==Les banques BLAT== * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] ==LocUcsc== [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only 59a7bf4ff81d484af61c8ca6ba27fb2aaa639ec7 1483 1482 2007-01-10T13:40:10Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beaucoup de choses: Attention: les positions des nucléotides dans UCSC sont comptées à partir de 0 Il y a donc un décalage de 1. ==Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2)== On y a accès par * En mode console ** '''setbird''' ** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no) * par webservice ** on attend l'url de Hoan * par '''gscope''' (la suite est à confirmer par '''oue''') ** '''BirdGetFields''' NM f1,f2,f3 ** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie)) ** '''NPduNM''' NM (rend le NP) ** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R)) ** '''LocIn''' Position Orga Chro Strand ** '''LocAfter''' Position Orga Chro Strand ** '''LocBefore''' Position Orga Chro Strand ==Les séquences== * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 ==Les banques BLAT== * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] ==LocUcsc== LocUcsc sera réécrit bientôt pour utiliser les données DB2 de Bird [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only b75e39d893c8acf2bb6a270a69b38fe932061cb0 1484 1483 2007-01-10T13:41:35Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beaucoup de choses: Attention: les positions des nucléotides dans UCSC sont comptées à partir de 0 Il y a donc un décalage de 1. ==Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[Bird]] (sous DB2)== On y a accès par * En mode console ** '''setbird''' ** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no) * par webservice ** on attend l'url de Hoan * par '''gscope''' (la suite est à confirmer par '''oue''') ** '''BirdGetFields''' NM f1,f2,f3 ** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie)) ** '''NPduNM''' NM (rend le NP) ** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R)) ** '''LocIn''' Position Orga Chro Strand ** '''LocAfter''' Position Orga Chro Strand ** '''LocBefore''' Position Orga Chro Strand ==Les séquences== * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 ==Les banques BLAT== * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] ==LocUcsc== LocUcsc sera réécrit bientôt pour utiliser les données DB2 de Bird [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only a4add57e0eebb78e34dd73881e6d2557bcab8352 BIRD 0 1313 1457 2006-12-19T15:50:30Z 130.79.78.212 0 wikitext text/x-wiki Le site web de [http://star4:8080/mybiodb BIRD] e91b75c8288d07f97f87fb00f77870b00f3dbbf9 Oue 0 1315 1468 2006-12-21T17:12:01Z 130.79.78.212 0 wikitext text/x-wiki oue la commande magique sous Unix qui dit '''où e'''st dans gscope les mots qui suivent. * oue blastppourtous * oue latotale * oue dom parse * oue proc machin en fait les mots qui suivent oue sont concaténés avec un blanc entre. * oue blast | gr proc récupère toutes les proc commençant par blast d8201e6ea62dd745ed493898cd9ba372cc7a65de 1469 1468 2006-12-21T17:13:01Z 130.79.78.212 0 wikitext text/x-wiki '''oue''' la commande magique sous Unix qui dit '''où e'''st dans gscope les mots qui suivent. * '''oue''' blastppourtous * '''oue''' latotale * '''oue''' dom parse * '''oue''' proc machin en fait les mots qui suivent '''oue''' sont concaténés avec un blanc entre. * '''oue blast | gr proc''' récupère toutes les proc commençant par blast 7adb54e884e6827cce801dd8ff3ce0ff1d5b9663 CVS 0 1317 1486 2007-01-19T09:41:21Z Dkieffer 2 wikitext text/x-wiki '''Concurrent Versions System''' est système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt, et qui permet aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations. 21288faee2529adb0ebb6efde514d90bdfbda5fa 1487 1486 2007-01-19T09:56:37Z Dkieffer 2 wikitext text/x-wiki '''Concurrent Versions System''' est système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt, et qui permet aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations. CVS est installé sur Kilida Pour pouvoir l'utiliser, contacter Nicolas Gagnière (gagniere@igbmc.u-strasbg.fr). =Voir aussi= [http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia] [http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa] [http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com] 5bdae528c4aad25ef1d0bb23c287557ca42bd5fd 1488 1487 2007-01-19T10:06:32Z Dkieffer 2 wikitext text/x-wiki '''Concurrent Versions System''' est système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt, et qui permet aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations. CVS est installé sur Kilida Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr Nicolas Gagnière]. =Voir aussi= [http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia] [http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa] [http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com] 158006d2727414036a32d0c64b16e6f5a4820a0c 1489 1488 2007-01-19T10:08:56Z Dkieffer 2 wikitext text/x-wiki '''Concurrent Versions System''' est un système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt. Il permet également aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations. CVS est installé sur Kilida Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr Nicolas Gagnière]. =Voir aussi= [http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia] [http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa] [http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com] 7137ea3cfd3ed820c672348cc471839d3405276d 1490 1489 2007-01-19T10:21:46Z Dkieffer 2 wikitext text/x-wiki '''Concurrent Versions System''' est un système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt. Il permet également aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations. CVS est installé sur Kilida Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr?subject=CVS%20Inscription Nicolas Gagnière]. =Voir aussi= [http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia] [http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa] [http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com] 90938f91196d8d35e9b73574d428947a739925b7 Gscope Clonage 0 1318 1492 2007-01-23T15:18:18Z 130.79.78.212 0 wikitext text/x-wiki '''Gscope Clonage''' et une application spécifique de [[Gscope]] qui permet de créer, stocker et gérer toute les information sur la protéine dont vous rêvez de faire la structure tridimensionnelle. '''Gscope Clonage''' dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs de _ de + d'apostrophes etc. ** une définition du style "Homo sapiens Note DNA repair helicase RAD3 (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB et;) ebb193426feb21af12bef271a664b5d72d52d704 1493 1492 2007-01-23T15:24:45Z 130.79.78.212 0 wikitext text/x-wiki '''Gscope Clonage''' et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la protéine dont vous rêvez de faire la structure tridimensionnelle. '''Gscope Clonage''' fait toutes les analyses possibles de votre séquences '''Gscope Clonage''' dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquecnce=== * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase RAD3 (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== ===Commande d'oligos=== ===Verification de séquence=== ===Serait-ce un LIMS ?=== 5fa7cbc389bef5554c898635da668653b5fbf200 1494 1493 2007-01-23T15:42:38Z 130.79.78.212 0 wikitext text/x-wiki '''Gscope Clonage''' et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. '''Gscope Clonage''' fait toutes les analyses possibles de vos séquences '''Gscope Clonage''' dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquecnce=== * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== ... qui vous aide à définir les domaines de la protéines ===Commande d'oligos=== * Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 ** Attention à écrire les signaux correctement, avec majuscule et miniscules ** Attention au _ et - : les _ séparent les signaux entre eux et avec la prot. ** Attention le - de hsDRH4-A fait parti du nom de gène, les autres séparent les bornes des domaines. * gscope OligAuto fait tout le reste en automatique. ===Verification de séquence=== ===Serait-ce un LIMS ?=== 911f7bffb7db6c73dea20954d36c8255d17518c5 1495 1494 2007-01-23T15:47:15Z 130.79.78.212 0 wikitext text/x-wiki '''Gscope Clonage''' * et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. * fait toutes les analyses possibles de vos séquences * dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquence=== * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== ... qui vous aide à définir les domaines de la protéines ===Commande d'oligos=== * Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 * mais attention ... ** écrire les signaux correctement, avec majuscule et miniscules ** les _ séparent les signaux entre eux et avec la prot. ** le - de hsDRH4-A fait parti du nom de gène, les autres séparent les bornes des domaines. * gscope OligAuto fait tout le reste en automatique. ===Verification de séquence=== ===Serait-ce un LIMS ?=== Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande. setgscope ProGS gscope A+ Raymond fef5d0c5d2b53e73d929b0ae716c4774b74c8ced 1496 1495 2007-01-23T22:21:38Z 212.198.132.121 0 Gscope Clonage : etude séquence, design et commande d'oligos wikitext text/x-wiki '''Gscope Clonage''' * et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. * fait toutes les analyses possibles de vos séquences * dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquence=== * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== ... qui vous aide à définir les domaines de la protéines ===Commande d'oligos=== * Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 * mais attention ... ** écrire les signaux correctement, avec majuscule et miniscules ** les _ séparent les signaux entre eux et avec la prot. ** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines. * gscope OligAuto fait tout le reste en automatique. ===Verification de séquence=== ===Serait-ce un LIMS ?=== Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande. setgscope ProGS gscope A+ Raymond 001dbf4d023823207d46b25cc3acff368ac20f62 1497 1496 2007-01-23T22:22:38Z 212.198.132.121 0 /* Commande d'oligos */ wikitext text/x-wiki '''Gscope Clonage''' * et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. * fait toutes les analyses possibles de vos séquences * dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquence=== * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== ... qui vous aide à définir les domaines de la protéines ===Commande d'oligos=== * Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 * mais attention ... ** écrire les signaux correctement, avec majuscule et miniscules ** les _ séparent les signaux entre eux et avec la prot. ** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines. gscope OligAuto fait tout le reste en automatique. ===Verification de séquence=== ===Serait-ce un LIMS ?=== Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande. setgscope ProGS gscope A+ Raymond 9338c277cf008bd5bb0a094e83fe821d8af6f9bb Logiciels 0 1319 1499 2007-02-01T08:28:51Z Dkieffer 2 wikitext text/x-wiki =Logiciels LBGI= *[[Gscope]] *[[Gscope Clonage]] *[[CADO4MI]] *[[Macsim|MACSIM]] *[[Bird]] =Autres Logiciels= *[[R]] d67e1cfb1893609d2c8a8e2ab1126d3e11ed0841 R 0 1320 1501 2007-02-01T08:47:36Z Dkieffer 2 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf R pour les débutants] d'Emmanuel Paradis *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] d6135bd0e92e0a6fd70c2633df4e5f3aa52c8da5 1502 1501 2007-02-01T09:34:43Z Wraff 5 /* Comment le lancer? */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trove le version la plus recente sur [http://www.r-project.org/] <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf R pour les débutants] d'Emmanuel Paradis *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] 5148f8ec843eacd2de0337326b52c4562196bf5b 1503 1502 2007-02-01T09:35:34Z Wraff 5 /* R pour Windows */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trove le version la plus recente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf R pour les débutants] d'Emmanuel Paradis *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] abf1add1bd1544ffa9c27e082f24cc144b9fd281 1504 1503 2007-02-01T09:39:48Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trove le version la plus recente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf R pour les débutants] d'Emmanuel Paradis *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card from Tom Short on www.Rpad.org http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 00e8cdd73b5cf7dfec1dc55bc32f55f4a71f6bf7 R 0 1320 1505 1504 2007-02-01T09:43:51Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trove le version la plus recente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card from Tom Short on www.Rpad.org http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ b8a3326d289879648f53d86064646b5db068fbed 1506 1505 2007-02-01T09:58:41Z Dkieffer 2 /* R pour Windows */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve le version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card from Tom Short on www.Rpad.org http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ f607fadbf60e8802a2e39a7295830d48450c37d3 1507 1506 2007-02-01T09:58:47Z Wraff 5 /* Documentation et Tutorials */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve le version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 905004fc00e7b7679c94ae42097b6c6e610bcbf8 1508 1507 2007-02-01T10:00:14Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== Janvier 2007: La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve le version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ d22cc6f979210ee3f04253ead357e5b9b822fc08 1509 1508 2007-02-02T13:09:34Z Dkieffer 2 /* R pour Windows */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== Janvier 2007: La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 5010ec47ad93ce05a83e2ae278f9e16c65b71724 1541 1509 2007-02-28T13:44:45Z Dkieffer 2 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== Janvier 2007: La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br> C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 9a6d9992e2a15854ea4fe8f90c71fa0b76883601 Main Page 0 1279 1511 1500 2007-02-13T09:16:32Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] ==Outils Unix== * [[Java]] * [[Unix| aide Unix]] * [[logiciels]] disponibles sur les serveurs. <div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;"> [http://casino-games-wiki.com/index.php/casino_games casino games] [http://casino-games-wiki.com/index.php/online_casino_games online casino games] [http://casino-games-wiki.com/index.php/casino_games_online casino games online] [http://adipex-wiki.com/index.php/adipex adipex] [http://adipex-wiki.com/index.php/buy_adipex buy adipex] [http://adipex-wiki.com/index.php/adipex_online adipex online] [http://tramadol-wiki.com/index.php/tramadol tramadol] [http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div> 3b7c40217f4955918659264470360aa0b1c42edb 1512 1511 2007-02-13T09:22:28Z 130.79.79.89 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] ==Outils Unix== * [[Java]] * [[Unix| aide Unix]] * [[logiciels]] disponibles sur les serveurs. a33da91d9314006d593188c857e84c7abd89f3d3 1514 1512 2007-02-13T09:29:24Z Ripp 1 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[logiciels]] disponibles sur les serveurs. e9ac72a342964a303ddf876aaa6d034ac3c48e0d 1538 1514 2007-02-26T08:28:52Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en est le serveur [[Kilida]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. 2634de94d6e9e790f03def864d438b2a957c3641 Café des sciences 0 1322 1513 2007-02-13T09:27:36Z 130.79.78.212 0 wikitext text/x-wiki Café des sciences On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences 9ed24732ae47b4c048cd6cb43c05d4858fc8e2da 1519 1513 2007-02-13T13:59:29Z Ripp 1 wikitext text/x-wiki Café des sciences On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou clients) veulent poser des questions et entendre les réponses d’un ensemble de « savants » invités à débattre de ce qu’ils savent. Le client demande à l’animateur du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose… l’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame. D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé). Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients. '' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. f6f67e01d96718a208d07daa04132ed77a70cb3b 1520 1519 2007-02-13T13:59:56Z Ripp 1 wikitext text/x-wiki Café des sciences On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou clients) veulent poser des questions et entendre les réponses d’un ensemble de « savants » invités à débattre de ce qu’ils savent. Le client demande à l’animateur du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose… l’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame. D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé). Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients. '' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. 0420bc20a471e705c59c3d288c099a117fa39668 1521 1520 2007-02-13T14:02:03Z Ripp 1 wikitext text/x-wiki Café des sciences On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de « '''savants''' » invités à débattre de ce qu’ils savent. Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose… L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame. D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé). Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. a642e17818f0ef0d8c6c53d00c891b4da43a02c1 1522 1521 2007-02-13T14:20:25Z Ripp 1 wikitext text/x-wiki Café des sciences On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de « '''savants''' » invités à débattre de ce qu’ils savent. Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose… L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame. D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé). Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== * en langage de commande ** question_de_science HOST:PORT:SCIENCE COMMANDE ** qds HOST:PORT:SCIENCE COMMANDE HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte on peut mettre, par exemple qds SCIENCE ListeDesPABs > FichierResultat.txt * dans gscope ** QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] * par web ** http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 9862b835523f9ac58547d22bce17110062dc3402 1523 1522 2007-02-13T14:21:42Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de « '''savants''' » invités à débattre de ce qu’ils savent. Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose… L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame. D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé). Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== * en langage de commande ** question_de_science HOST:PORT:SCIENCE COMMANDE ** qds HOST:PORT:SCIENCE COMMANDE HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte on peut mettre, par exemple qds SCIENCE ListeDesPABs > FichierResultat.txt * dans gscope ** QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] * par web ** http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 c281a980b00790bf5befa5464c8fe63c758fa0eb 1524 1523 2007-02-13T14:23:02Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== * en langage de commande ** question_de_science HOST:PORT:SCIENCE COMMANDE ** qds HOST:PORT:SCIENCE COMMANDE HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte on peut mettre, par exemple qds SCIENCE ListeDesPABs > FichierResultat.txt * dans gscope ** QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] * par web ** http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 7775d1d133a972fa2ecdfb914456da618efa77be 1525 1524 2007-02-13T14:24:20Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== # en langage de commande ** question_de_science HOST:PORT:SCIENCE COMMANDE ** qds HOST:PORT:SCIENCE COMMANDE HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte on peut mettre, par exemple qds SCIENCE ListeDesPABs > FichierResultat.txt # dans gscope ** QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] # par web ** http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 0b3ccc4029a0c2556feafd274cf3eafd351c951c 1526 1525 2007-02-13T14:25:18Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte on peut mettre, par exemple qds SCIENCE ListeDesPABs > FichierResultat.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 69a9ec9096959a9f4a877f9c7cec58935c312e01 1527 1526 2007-02-13T14:26:30Z Ripp 1 /* par web */ wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte on peut mettre, par exemple qds SCIENCE ListeDesPABs > FichierResultat.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 011eada13829a899977757b80c9b2fe24c4cd2d1 1528 1527 2007-02-13T14:27:58Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== dans la suite : HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 627b357d42725e1133db81b4157490b7e820b118 1529 1528 2007-02-13T14:29:07Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 3b2f42ca93eaad78268bd8624318386877899f93 1550 1529 2007-03-08T18:51:09Z 64.27.20.205 0 /* Principe */ wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. 663359692105707909320860 ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 2d90e6d593857a75ce29164a332b8f9c52d38807 1552 1550 2007-03-24T06:55:36Z 216.144.225.74 0 /* Principe */ wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. 663359692105707909320860 <br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Women]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Porn]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Moms]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Lesbians]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Ladies]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Fuck]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Teen Webcam]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Chat]<br></u> ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 e179f135c07cf67113bf5edb04f50cd6bbc1e62e 1553 1552 2007-03-24T08:10:57Z 201.28.123.98 0 /* Principe */ wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. 663359692105707909320860 <br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Women]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Porn]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Moms]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Lesbians]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Ladies]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Fuck]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Teen Webcam]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Chat]<br></u> <br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn Movies]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn Videos]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=266 Free Porn Movies]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=266 Free porn sample movies]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Hardcore Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Free Porn Clips]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Teen Porn Videos]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Girls]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Porn]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Sexy Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Nude Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Naked Teens]<br></u> ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 a1daac17705845d72b5fd8d7369478ac690f5c27 Tcl/Tk 0 1323 1515 2007-02-13T09:31:37Z Ripp 1 wikitext text/x-wiki Pour le package http il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl 0a716dc8d98990e5343e0b6d15e9c47512c4ad5f 1516 1515 2007-02-13T09:32:23Z Ripp 1 wikitext text/x-wiki Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]]) il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl a5edd5f975e2c8bfff99873fbab1675723ac7745 1517 1516 2007-02-13T13:02:45Z Ripp 1 wikitext text/x-wiki Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]]) il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl 506020a6f10fe1fef67326e1e399d349c629a73d 1518 1517 2007-02-13T13:03:10Z Ripp 1 wikitext text/x-wiki * Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]]) il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl 0a312c093bfc68b994ae6a0809e75f3483dd5334 Unix 0 1312 1531 1478 2007-02-16T15:59:37Z Dkieffer 2 /* commandes relatifs à l'environnement multi-utilisateurs */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 | commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =sources= Initiation à la bioinformatique O'Reilly d6211364979daf5b9f825940968892f025145035 1532 1531 2007-02-19T10:40:46Z 130.79.77.179 0 /* Redirections et tube */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 (caractère pipe) commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =sources= Initiation à la bioinformatique O'Reilly ae37f39dd1b634014822d64256f5859f41d2a110 1533 1532 2007-02-19T12:27:07Z Dkieffer 2 /* Manipulation des fichiers et des répertoires */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 (caractère pipe) commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =sources= Initiation à la bioinformatique O'Reilly 972eabf3c909534df4f0d45ed962aa74438328b9 1534 1533 2007-02-19T12:37:34Z Dkieffer 2 wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 (caractère pipe) commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =sources= Initiation à la bioinformatique O'Reilly 380ae939a97024111c4025f46bceb95a54794d31 1548 1534 2007-03-06T13:16:45Z Dkieffer 2 wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 (caractère pipe) commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =Script bash= ==Les variables== *Pour assigner une variable simple: ma_Variable="ceci est une variable" *Pour assigner une variable d'environnement: export ma_Variable_d_env="ceci est une variable" *Pour acceder a une variable: $ma_variable exemple: echo $ma_variable affiche: ceci est une variable =sources= Initiation à la bioinformatique O'Reilly 0286f3d903f55df150d56d21aa07094de9bc3d17 1549 1548 2007-03-06T13:26:20Z Dkieffer 2 /* Script bash */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |commande_1 (caractère pipe) commande_2 |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =Script bash= [http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite] =sources= Initiation à la bioinformatique O'Reilly acb706158df3ab90334ba6dd448699e53e335043 Logiciels 0 1319 1535 1499 2007-02-19T15:47:54Z Dkieffer 2 /* Autres Logiciels */ wikitext text/x-wiki =Logiciels LBGI= *[[Gscope]] *[[Gscope Clonage]] *[[CADO4MI]] *[[Macsim|MACSIM]] *[[Bird]] =Autres Logiciels= *Statistique: **[[R]] *Visualisation **[[Graphviz]] 09431287359e12ed8c5070270ca26826f87df1aa Graphviz 0 1325 1536 2007-02-19T16:06:36Z Dkieffer 2 wikitext text/x-wiki Logiciel de visualisation de graph au format dot. installé sur [[kilida]] et [[alnitak]] =le format dot= c'est un fichier texte ayant cette structure: graph GraphName { bgcolor=azure; node [shape=box, color=lightblue2, style=filled]; edge [arrowsize=2, color=gold]; "zero" -- "dix" [color=purple]; "un" -- "dix"; "zero" -- "vingt"; "deux" -- "vingt"; "zero" [shape=circle, color=thistle1, fontcolor=purple]; } Et pour un graphe orienté digraph G { bgcolor=azure; node [shape=box, color=lightblue2, style=filled]; edge [arrowsize=2, color=gold]; "zero" -> "dix" [color=purple]; "un" -> "dix"; "zero" -> "vingt"; "deux" -> "vingt"; "zero" [shape=circle, color=thistle1, fontcolor=purple]; } =les commandes= Syntaxe (où cmd correspond à l'un des générateurs : dot, neato, twopi) : cmd [ flags ] [ input files ] Exemple produisant une image JPEG monImage.jpg à partir du fichier d'entrée monGraphe.dot : dot -Tjpg -omonImage.jpg monGraphe.dot 57b06118da709acec917c244c218714a68ef28b1 1537 1536 2007-02-19T16:08:07Z Dkieffer 2 wikitext text/x-wiki Logiciel de visualisation de graph au format dot. installé sur [[kilida]] et [[alnitak]] =le format dot= c'est un fichier texte ayant cette structure: graph GraphName { bgcolor=azure; node [shape=box, color=lightblue2, style=filled]; edge [arrowsize=2, color=gold]; "zero" -- "dix" [color=purple]; "un" -- "dix"; "zero" -- "vingt"; "deux" -- "vingt"; "zero" [shape=circle, color=thistle1, fontcolor=purple]; } Et pour un graphe orienté digraph G { bgcolor=azure; node [shape=box, color=lightblue2, style=filled]; edge [arrowsize=2, color=gold]; "zero" -> "dix" [color=purple]; "un" -> "dix"; "zero" -> "vingt"; "deux" -> "vingt"; "zero" [shape=circle, color=thistle1, fontcolor=purple]; } =les commandes= Syntaxe (où cmd correspond à l'un des générateurs : dot, neato, twopi) : cmd [ flags ] [ input files ] Exemple produisant une image JPEG monImage.jpg à partir du fichier d'entrée monGraphe.dot : dot -Tjpg -omonImage.jpg monGraphe.dot =Voir aussi= [[Logiciels]] ac30572ce00a048fdd0e45ecd44daf683ec69f27 1540 1537 2007-02-28T13:44:08Z Dkieffer 2 /* les commandes */ wikitext text/x-wiki Logiciel de visualisation de graph au format dot. installé sur [[kilida]] et [[alnitak]] =le format dot= c'est un fichier texte ayant cette structure: graph GraphName { bgcolor=azure; node [shape=box, color=lightblue2, style=filled]; edge [arrowsize=2, color=gold]; "zero" -- "dix" [color=purple]; "un" -- "dix"; "zero" -- "vingt"; "deux" -- "vingt"; "zero" [shape=circle, color=thistle1, fontcolor=purple]; } Et pour un graphe orienté digraph G { bgcolor=azure; node [shape=box, color=lightblue2, style=filled]; edge [arrowsize=2, color=gold]; "zero" -> "dix" [color=purple]; "un" -> "dix"; "zero" -> "vingt"; "deux" -> "vingt"; "zero" [shape=circle, color=thistle1, fontcolor=purple]; } =les commandes= Syntaxe (où cmd correspond à l'un des générateurs : dot, neato, twopi) : cmd [ flags ] [ input files ] Exemple produisant une image JPEG monImage.jpg à partir du fichier d'entrée monGraphe.dot : dot -Tjpg -omonImage.jpg monGraphe.dot taper " man dot " pour plus d'information. =Voir aussi= [[Logiciels]] 79167269bd3fd71153c0ff3baf3f9b85a93bbff5 1547 1540 2007-03-05T08:31:06Z Dkieffer 2 wikitext text/x-wiki Logiciel de visualisation de graphe au format dot. installé sur [[kilida]] et [[alnitak]] =le format dot= c'est un fichier texte ayant cette structure: graph GraphName { bgcolor=azure; node [shape=box, color=lightblue2, style=filled]; edge [arrowsize=2, color=gold]; "zero" -- "dix" [color=purple]; "un" -- "dix"; "zero" -- "vingt"; "deux" -- "vingt"; "zero" [shape=circle, color=thistle1, fontcolor=purple]; } Et pour un graphe orienté digraph G { bgcolor=azure; node [shape=box, color=lightblue2, style=filled]; edge [arrowsize=2, color=gold]; "zero" -> "dix" [color=purple]; "un" -> "dix"; "zero" -> "vingt"; "deux" -> "vingt"; "zero" [shape=circle, color=thistle1, fontcolor=purple]; } =les commandes= Syntaxe (où cmd correspond à l'un des générateurs : dot, neato, twopi) : cmd [ flags ] [ input files ] Exemple produisant une image JPEG monImage.jpg à partir du fichier d'entrée monGraphe.dot : dot -Tjpg -omonImage.jpg monGraphe.dot taper " man dot " pour plus d'information. =Voir aussi= [[Logiciels]] ae3634504c501c462f30e7d548fb9db581713201 Html et Javascript 0 1326 1539 2007-02-26T08:30:56Z 130.79.78.212 0 wikitext text/x-wiki Quelques outils pour Html et Javascript * includeFile <pre> function includeFile (fileName) { if (document.getElementsByTagName) { Script = document.createElement("script"); Script.type = "text/javascript"; Script.src = fileName; var Body = document.getElementsByTagName("body"); if (Body) { Body[0].appendChild(Script); } } } function includeAllJavascriptToolsFromRr () { includeFile("http://www-bio3d-igbmc.u-strasbg.fr/~ripp/jstools/prototype.js") ; includeFile("http://www-bio3d-igbmc.u-strasbg.fr/~ripp/jstools/JavascriptToolsFromRr.js") ; includeFile("http://www-bio3d-igbmc.u-strasbg.fr/~ripp/jstools/Decoration.js") ; } </pre> cbdbfe78eb5d472580f7d16cebdbae1b70fef73f LBGI 0 1280 1542 1289 2007-02-28T13:51:47Z Dkieffer 2 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et toute la [http://alnitak.u-strasbg.fr/lbgi tribu] Le Wiki de [[Laëtitia]]. La page wiki de [[User:Dkieffer | David Kieffer]] 657cde943f13b2aa09a7216236b7d5497de78b60 User:Dkieffer 2 1305 1543 1393 2007-02-28T13:55:21Z Dkieffer 2 wikitext text/x-wiki =Mon parcours au LBGI= Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker. Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker. 5c0a14814c251396ca9d962128d8384e62792e12 Alvinella 0 1311 1546 1445 2007-03-02T00:56:09Z 61.95.148.3 0 wikitext text/x-wiki 48053369391600495951863 <br><br><u style="display:none;">[http://blogs.ebay.com/predyava Buy Generic Cialis]<br>[http://blogs.ebay.com/predyava Buy Cialis 20 mg]<br>[http://blogs.ebay.com/predyava Cheap Generic Cialis 20mg]<br>[http://blogs.ebay.com/predyava Buy Cheap Cialis]<br>[http://blogs.ebay.com/predyava Buy Generic Cialis 20 mg]</u> <br><br><u style="display:none;">[http://phenotropil.romandie.com/ Buy Generic Levitra]<br>[http://phenotropil.romandie.com/ Buy Levitra Online]<br>[http://phenotropil.romandie.com/ Buy Generic Levitra 20 mg]<br>[http://phenotropil.romandie.com/ Buy Levitra Online]<br>[http://phenotropil.romandie.com/ Buy Generic Levitra 20mg]</u> <br><br><u style="display:none;">[http://jira.opensymphony.com/secure/attachment/12901/creampie.html Anal Creampie] [http://jira.opensymphony.com/secure/attachment/12901/creampie.html Creampie Surprise] [http://jira.opensymphony.com/secure/attachment/12901/creampie.html Creampie Galleries] [http://jira.opensymphony.com/secure/attachment/12901/creampie.html Creampie Pussies] [http://jira.opensymphony.com/secure/attachment/12901/creampie.html Teen Creampie] [http://jira.opensymphony.com/secure/attachment/12902/drunksexorgy.html Drunk Sex Orgy] [http://jira.opensymphony.com/secure/attachment/12902/drunksexorgy.html Party Hardcore] [http://jira.opensymphony.com/secure/attachment/12902/drunksexorgy.html College Wild Parties] [http://jira.opensymphony.com/secure/attachment/12902/drunksexorgy.html Drunk Party] [http://jira.opensymphony.com/secure/attachment/12903/gaycowboys.html Gay cowboys] [http://jira.opensymphony.com/secure/attachment/12903/gaycowboys.html Huge gay cock] [http://jira.opensymphony.com/secure/attachment/12903/gaycowboys.html Big gay dick] [http://jira.opensymphony.com/secure/attachment/12903/gaycowboys.html Black gay dick] [http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Black Seducer] [http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Boys Collection] [http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Boys Wedding] [http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Black Machines] [http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Gay Lessons] [http://jira.opensymphony.com/secure/attachment/12905/matureporn.html Mature Porn] [http://jira.opensymphony.com/secure/attachment/12905/matureporn.html Mature Lessons] [http://jira.opensymphony.com/secure/attachment/12905/matureporn.html World Mature] [http://jira.opensymphony.com/secure/attachment/12905/matureporn.html Mature Debutants] [http://jira.opensymphony.com/secure/attachment/12905/matureporn.html Banged Moms] [http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Shemale sex] [http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Shemale galleries] [http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Shemale movies] [http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Black shemales] [http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Shemale porn] [http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Sleeping Sex] [http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Sleep Assault] [http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Sleeping Bitch] [http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Sleeping Bitches] [http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Night Invasion] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Stocking tease] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Black stockings] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Stocking mania] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Silk stockings] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Stocking sex] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Nylon stockings]</u> fbcf04510627ed08756e2d23573ac8261983bd10 Gscope 0 1287 1554 1320 2007-03-24T12:26:37Z 212.198.132.121 0 wikitext text/x-wiki Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. Gscope is specially designed to perform high throughput analysis. Gscope is mainly composed of * all tools necessary to create the basic data * analysis tools * visualisation interface it allows also * the creation and feeding of SQL relational databases * the quering and display of the available information through a web based interface 5b083af33663f47eb3772eac1a152458102e794a 1556 1554 2007-03-24T12:30:27Z 212.198.132.121 0 wikitext text/x-wiki Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. Gscope is specially designed to perform high throughput analysis. Gscope is mainly composed of * all tools necessary to create the basic data * analysis tools * visualisation interface it allows also * the creation and feeding of SQL relational databases * the quering and display of the available information through a web based interface Gscope has some specific applications * [[Gscope Clonage]] to design, order and manage oligos for Structural Genomics 3f53a6f434125e706c79eb084025d6724e49c4fc 1557 1556 2007-03-24T12:30:40Z 212.198.132.121 0 wikitext text/x-wiki Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. Gscope is specially designed to perform high throughput analysis. Gscope is mainly composed of * all tools necessary to create the basic data * analysis tools * visualisation interface it allows also * the creation and feeding of SQL relational databases * the quering and display of the available information through a web based interface Gscope has some specific applications * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]] 7f1995a1a57cfe0c9e099052628eb4d1f2193080 1558 1557 2007-03-24T12:33:47Z 212.198.132.121 0 wikitext text/x-wiki ==What is Gscope ?== Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. Gscope is specially designed to perform high throughput analysis. Gscope is mainly composed of * all tools necessary to create the basic data * analysis tools * visualisation interface it allows also * the creation and feeding of SQL relational databases * the quering and display of the available information through a web based interface ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]] ==How it works== * Main [[Architecture of Gscope]] 9863c84a7f597efe4ca7c90a65659f376acd1ac3 1559 1558 2007-03-24T12:34:55Z 212.198.132.121 0 wikitext text/x-wiki ==What is Gscope ?== Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. Gscope is specially designed to perform high throughput analysis. Gscope is mainly composed of * all tools necessary to create the basic data * analysis tools * visualisation interface it allows also * the creation and feeding of SQL relational databases * the quering and display of the available information through a web based interface ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 5c15a92b8efc5a5642ff7e14e326b76310edf1ee Gscope Clonage 0 1318 1555 1497 2007-03-24T12:27:04Z 212.198.132.121 0 wikitext text/x-wiki '''Gscope Clonage''' * est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. * fait toutes les analyses possibles de vos séquences * dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquence=== * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== ... qui vous aide à définir les domaines de la protéines ===Commande d'oligos=== * Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 * mais attention ... ** écrire les signaux correctement, avec majuscule et miniscules ** les _ séparent les signaux entre eux et avec la prot. ** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines. gscope OligAuto fait tout le reste en automatique. ===Verification de séquence=== ===Serait-ce un LIMS ?=== Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande. setgscope ProGS gscope A+ Raymond fcad2073d606d7455dc0edf3fcc3322caf43d2c1 Architecture of Gscope 0 1328 1560 2007-03-24T13:46:15Z 212.198.132.121 0 wikitext text/x-wiki The Architecture of Gscope is not ... perfect. To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. 3fe89d6263e3381283bbe1f11283df0a32c1d111 Café des sciences 0 1322 1561 1553 2007-04-13T00:01:09Z 195.175.37.6 0 /* Principe */ wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. 663359692105707909320860 <br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Women]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Porn]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Moms]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Lesbians]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Ladies]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Fuck]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Teen Webcam]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Chat]<br></u> <br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn Movies]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn Videos]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=266 Free Porn Movies]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=266 Free porn sample movies]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Hardcore Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Free Porn Clips]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Teen Porn Videos]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Girls]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Porn]<br> [http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Sexy Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Nude Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Naked Teens]<br></u> <br><br><u style="display:none;">[http://blog.carthage.edu/buyviagra/buyviagra.php Buy Viagra] [http://blog.carthage.edu/phentermine/phentermine.php Buy Phentermine] [http://blog.carthage.edu/buycialis/buycialis.php Buy Cialis] [http://blog.carthage.edu/buylevitra/buylevitra.php Buy Levitra]</u> ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 90cdffca837a73be01ae83c2d4eb963a75b9b749 Java 0 1293 1564 1459 2007-04-16T17:17:18Z 130.79.77.179 0 /* Où trouver les fichiers pour l'execution? */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. Mais malheureusement pas encore sur les autres Star... A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java ==sources internes== ===Lancement et synchronisation de programmes externes en multiThread à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] a9c745645bc7036f49dc9dc91254602ec8088b3a 1601 1564 2007-04-24T08:10:39Z Huault 7 /* Librairies internes */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. Mais malheureusement pas encore sur les autres Star... A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java ==sources internes== ===Lancement et synchronisation de programmes externes en multiThread à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 7415ed63fd244e70ea1c16e1e54fb1a4048491da UCSCGenomes 0 1284 1565 1484 2007-04-17T12:59:42Z 130.79.78.212 0 wikitext text/x-wiki UCSCGenomes concerne beaucoup de choses: Attention: les positions des nucléotides dans UCSC sont comptées à partir de 0 Il y a donc un décalage de 1. ==Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[Bird]] (sous DB2)== On y a accès par * En mode console ** '''setbird''' ** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no) * par webservice ** on attend l'url de Hoan * par '''gscope''' (la suite est à confirmer par '''oue''') ** '''BirdGetFields''' NM f1,f2,f3 ** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie)) ** '''NPduNM''' NM (rend le NP) ** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R)) ** '''LocIn''' Position Orga Chro Strand ** '''LocAfter''' Position Orga Chro Strand ** '''LocBefore''' Position Orga Chro Strand ==Les tables Database== On y trouve refGene.txt knownGene.txt etc. ==Les séquences== * Les sequences ADN des chromosomes voir dans ** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603 ** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405 ** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/bigZips200602 ** /genomics/UCSCGenomes/Mus_musculus/bigZips200503 ==Les banques BLAT== * Les banques BLAT créées à partir de ces bigZips ** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant) ** /genomics/UCSCGenomes/Homo_sapiens/blat200603 ** /genomics/UCSCGenomes/Homo_sapiens/blat200405 ** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant) ** /genomics/UCSCGenomes/Mus_musculus/blat200602 ** /genomics/UCSCGenomes/Mus_musculus/blat200503 * On peut aussi y trouver les banques blast Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix] ==LocUcsc== LocUcsc a été réécrit pour utiliser les données DB2 de Bird [[Gscope]] fournit des fonctions '''LocUcsc ListOf Access''' return la liste des Access '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only '''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only 90311221c254966292979ecd667c798d5568d805 Main Page 0 1279 1570 1538 2007-04-19T09:16:32Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. b072eb578fb7dbd912287bf0a95c31c1c055384b 1582 1570 2007-04-19T12:18:55Z 130.79.77.139 0 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. 1219895b371ec82ecf92f9fa76e7028bfefcde71 Kilida et Alnitak 0 1330 1571 2007-04-19T09:19:03Z 130.79.78.212 0 wikitext text/x-wiki Kilida et Alnitak sot nos deux serveurs que l'on bascule allègrement de l'un vers l'autre. En fait on leur échange les numéros IP. Il y a en fait deux machines physiques. L'un est une lame en salle machine l'autre une tour dans la salle 3D. 3cb72a107c6a384e131f1c782c3ec6f0497babc9 1572 1571 2007-04-19T09:19:52Z 130.79.78.212 0 wikitext text/x-wiki Kilida et Alnitak sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre. En fait on leur échange les numéros IP. Il y a en fait deux machines physiques. L'un est une lame en salle machine l'autre une tour dans la salle 3D. 7bc5648335d78896a01459f2aadcb6575941d23f 1573 1572 2007-04-19T09:20:41Z 130.79.78.212 0 wikitext text/x-wiki [[Kilida]] et [[Alnitak]] sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre en fausant l'échange des numéros IP. Il y a en fait deux machines physiques. L'un est une lame en salle machine l'autre une tour dans la salle 3D. 987a3bd64bda96147c83d9115665b92b8be11398 1575 1573 2007-04-19T09:24:18Z 130.79.78.212 0 wikitext text/x-wiki [[Kilida]] et [[Alnitak]] sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre en fausant l'échange des numéros IP. Il y a en fait deux machines physiques. L'un est une [[Lame]] en salle machine l'autre une [[Tour]] dans la salle 3D. d91d385fbfb2e887c65fe1a9342fbffffe0f1fea 1576 1575 2007-04-19T09:25:45Z 130.79.78.212 0 wikitext text/x-wiki [[Kilida]] et [[Alnitak]] sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre en faisant l'échange des numéros IP. Il y a en fait deux machines physiques. L'un est une [[Lame]] en salle machine l'autre une [[Tour]] dans la salle 3D. Alnitak est la machine serveur de bases de données visible de l'extérieur. Kilida est le miroir. 2c9287ddb683ecccf914809a6f21ccdc2d209afe Kilida 0 1283 1574 1413 2007-04-19T09:23:01Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. ==Kilida serveur== Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI] Wikili est le wiki de Kilida '''Kilida est un PC AMD Opteron qui tourne maintenant sous Ubuntu''' voir [[Installation de Ubuntu]] tout ce qui suit est à mettre à jour * [[Installation de CAPweb]] * [[Installation de R]] * [[Installation de Tcl/Tk]] Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida. Comment ? * dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx 8b8b23c608ded27029af91feeb59b94c64f16304 1577 1574 2007-04-19T09:32:43Z 130.79.78.212 0 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. ==Kilida serveur== Kilida était destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]. En attendant il sert de miroir et de machine test car c'est [[Alnitak]] le vrai serveur... voir [[Kilida et Alnitak]] Kilida est, physiquement, soit la [[Lame]] soit la [[Tour]] et tourne sous Ubuntu Voir [[Installation de Ubuntu]] c2007ae90d085417dfbd4422959bbcbac0ce17a7 Installation de Ubuntu 0 1307 1578 1424 2007-04-19T09:33:11Z 130.79.78.212 0 wikitext text/x-wiki Ubuntu est un Linux issu de Debian voir [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PublicDirectory/systeme/UbuntuInstallation.txt Installation Ubuntu] par Nicolas et Raymond On part du DVD fourni par Ubuntu * On boote dessus ... ** Il demande quoi faire (on prend le 1er avec graphique) ** Il charge un Linux complet sans toucher aux disques ** Sur le bureau il y a une icone "Install" ** Il demande alors sur quel disque ... les partitions à faire etc. ** Tout est graphique et facile. * [[Installation de CAPweb]] * [[Installation de R]] * [[Installation de Tcl/Tk]] bc61bfdca0646f98be779acaa5664012cf4e1407 Installation de Tcl/Tk 0 1294 1579 1359 2007-04-19T09:42:41Z Ripp 1 wikitext text/x-wiki L'installation de Tcl/Tk est un peu délicate ... car il faut rajouter des choses à la distrib Linux. En plus il y a /usr/local/ActiveTcl quie est commun à tous les Linux. Aucune doc à jour n'est disponible. b897f5bfefcdd457bd6c6f0117aedde33ec1c3c7 1580 1579 2007-04-19T09:45:27Z Ripp 1 wikitext text/x-wiki L'installation de Tcl/Tk est un peu délicate ... car il faut rajouter des choses à la distrib Linux. En plus il y a /usr/local/ActiveTcl qui est commun à tous les Linux. Aucune doc à jour n'est disponible. Voir la doc [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PublicDirectory/systeme système] chez Raymond a65fd8928792266704eed185c86b0304ee4fa3e5 Installation de R 0 1295 1581 1383 2007-04-19T09:47:00Z Ripp 1 wikitext text/x-wiki Le R de /usr/local ne marchait pas La suite est peut être obsolète. * rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm ** il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]]) * dans R ** > source("http://www.bioconductor.org/biocLite.R") ** > biocLite() ** > source("http://www.bioconductor.org/getBioC.R") ** > getbioC() * pour les packages de R ** R CMD INSTALL ~ripp/vrac/aws_1.3-2.tar.gz ** R CMD INSTALL R_PACKAGES/GLAD_1.3.0.tar.gz ** R CMD INSTALL R_PACKAGES/MANOR_1.3.0.tar.gz ** R CMD INSTALL R_PACKAGES/cluster_1.10.2.tar.gz ** R CMD INSTALL R_PACKAGES/Hmisc_3.0-7.tar.gz 3287820c882a07c21f2dca530f778fdefc3e7b00 JavOO 0 1331 1583 2007-04-19T12:20:42Z 130.79.77.139 0 wikitext text/x-wiki JavOO : Java Odbc for Office. JavOO is a small multithread server written in Java working on Windows platform cca726e5f420213fb996674f5e9bc4074e263bf9 1584 1583 2007-04-19T12:22:14Z 130.79.77.139 0 wikitext text/x-wiki JavOO : Java Odbc for Office. ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] JavOO is a small multithread server written in Java working on Windows platform 0ce1bb5507c41db6aeaa53a5d42f918b8eec6802 1585 1584 2007-04-19T12:23:09Z 130.79.77.139 0 wikitext text/x-wiki JavOO : Java Odbc for Office. ==Introduction== JavOO is a small multithread server written in Java working on Windows platform ==Description== test description 8a625f135263f1ab272dab4b5c0de91acec6636e 1586 1585 2007-04-19T12:25:17Z 130.79.77.139 0 wikitext text/x-wiki JavOO : Java Odbc for Office. ==Introduction== JavOO is a small multithread server written in Java working on Windows platform ==Description== test description ==Installation== test install ==Usage== test usage 9d9a0cb2b9f333e68ab6ed01b3cb0de7dee40605 1587 1586 2007-04-19T12:26:19Z 130.79.77.139 0 wikitext text/x-wiki JavOO : Java Odbc for Office. ==Introduction== JavOO is a small multithread server written in Java working on Windows platform ==Description== test description ==Download== test download ==Installation== test install ==Usage== test usage 273ec087f9e7ec952c9db6dc8e1de27bd58678ad 1599 1587 2007-04-20T07:17:00Z 130.79.77.139 0 wikitext text/x-wiki JavOO : Java Odbc for Office. ==Introduction== JavOO is a small multithread server written in Java working on Windows platform ==Download== test download ==Installation== test install ==Usage== test usage f115311620f19271165e5a38d163fcd11a312cbe 1602 1599 2007-04-24T15:17:14Z 130.79.77.139 0 wikitext text/x-wiki JavOO : Java Odbc for Office. ==Introduction== JavOO is a small multithread secure server written in Java and working on Windows platform. It allows you to share MSAccess and MSExcel resource, making them accessible through SQL queries. ==Download== test download ==Installation== test install ==Usage== test usage 6e7b2686dc63b15c36d3a20bbe4c00bf5a5f4f9f 1603 1602 2007-04-24T15:18:08Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in Java and working on Windows platform. It allows you to share MSAccess and MSExcel resource, making them accessible through SQL queries. ==Download== test download ==Installation== test install ==Usage== test usage c68e3356ada361f41e803ca5928607927cbe174d 1604 1603 2007-04-24T15:22:33Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in Java and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOOsetup.exe here] ==Installation== test install ==Usage== test usage 8e554c3269b31d5400e4add823a62c0eea35b2cd 1605 1604 2007-04-24T15:23:38Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in Java and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. The actual version is beta 1.0 . ==Installation== test install ==Usage== test usage 9191db3fbd28bd3e76474007afb8c4841f6ef3fd 1606 1605 2007-04-24T15:28:02Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in Java and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file JavOOsetup.exe and follow the instructions. By default the program will be installed in C:\Program Files\JavOO\ . ==Usage== test usage 966f7f5be3f2bbc4bb4484f49e1826bc2b6efa15 1607 1606 2007-04-24T15:28:49Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file JavOOsetup.exe and follow the instructions. By default the program will be installed in C:\Program Files\JavOO\ . ==Usage== test usage 14aa21141e77b104b6d82f58e8ed1ee1128225d6 1608 1607 2007-04-24T15:30:15Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in C:\Program Files\JavOO\ . ==Usage== test usage 63fd83ac2974f3c6a8726b6deb8fa32a4a421b93 1609 1608 2007-04-24T15:30:47Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Usage== test usage e39b976c5c423d5550b70ebeaad2b0ef78a7e89a 1610 1609 2007-04-24T15:45:09Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text editor. 1. Excel file: ==Usage== test usage ecf161f7f6107fa09255066092717ee933a2baa3 1611 1610 2007-04-24T15:48:16Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text editor. 1. Excel file: <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> ==Usage== test usage 64caee408a483c29868090c49fd3f0172de99eac 1612 1611 2007-04-24T15:56:59Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text editor. # Excel file: <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> # Access file: <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== test usage 5f49c125bf564d5a5f69a54273ca4f55766b4ff7 1613 1612 2007-04-24T15:59:38Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== test usage e303d18dd3b9170859d80f18963e8a3fe96cb2eb Fed 0 1286 1588 1318 2007-04-19T12:43:36Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PostgreSQL Relational Database * a PHP base website using Html and Javascript It allows to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. This data are then processed to be integration in the Relational Database. ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This ca be easily done if the creation of new users is centralized on the unique Dieu. The information concerning the new user is then transferred to the local Fed especially the Pk the unique Id of the user. d960498f6149529ca1ae4a5e57ef7603267da1ab 1589 1588 2007-04-19T15:32:25Z 130.79.77.139 0 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PostgreSQL Relational Database * a PHP base website using Html and Javascript It allows to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. This data are then processed to be integration in the Relational Database. ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This ca be easily done if the creation of new users is centralized on the unique FedLord. The information concerning the new user is then transferred to the local Fed especially the Pk the unique Id of the user. 01b18a531649d8512214f60a8c48e975eacdc0f4 1590 1589 2007-04-19T15:45:17Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PostgreSQL Relational Database * a PHP base website using Html and Javascript It allows to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. This data are then processed to be integration in the Relational Database. ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This ca be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. 714a2527e4c02464e54b2b1b889ce2f3342fe2c8 1614 1590 2007-04-24T19:02:56Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PostgreSQL Relational Database * a PHP base website using Html and Javascript It allows to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. This data are then processed to be integration in the Relational Database. ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. 8a08acebed6957759af847a22b415d91e022c610 FedLord 0 1332 1591 2007-04-19T15:48:14Z Ripp 1 wikitext text/x-wiki FedLord is the unique database centralising the [[Fed]] users of a federeation of Fed databases. If all people are centralised in this database it will be possible to share the access rights within several Fed servers. 2566fb025d5b61790528959a8d803df5deb6de68 LBGI 0 1280 1592 1542 2007-04-19T16:48:51Z 212.198.202.135 0 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. Le Wiki de [[Laëtitia]]. La page wiki de [[User:Dkieffer | David Kieffer]] 51d9a9335c3e901f1eaa56ac1b42e87f701d5bb9 Membres du LBGI 0 1333 1593 2007-04-19T17:10:53Z 212.198.202.135 0 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] * [[Radhouene Aniba]] * [[Yannick-Noël Anno]] * [[Yahya Benabbou]] * [[Guillaume Berthommier]] * [[Laurent Bianchetti]] * [[Yann Brélivet]] * [[Sophie Candel]] * [[Annaïck Carles]] * [[Anne Friederich]] * [[Nicolas Gagnière]] * [[Véronique Geoffroy]] * [[David Kieffer]] * [[Odile Lecompte]] * [[Luc Moulinier]] * [[Ngoc-Hoan Nguyen]] * [[Frédéric Plewniak]] * [[Emmanuel Perrodou]] * [[Olivier Poch]] * [[Laëtitia Poidevin]] * [[Wolfgang Raffelsberger]] * [[Ravikiran Reddy]] * [[Raymond Ripp]] * [[Jean-Claude Thierry]] * [[Julie Thompson]] * [[Nicolas Wicker]] 84c68b38845ab2f5988f000521171b6989f1f2b8 Raymond Ripp 0 1334 1594 2007-04-19T17:23:41Z 212.198.202.135 0 wikitext text/x-wiki Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi] Je suis Ingénieur de Recherche CNRS au [[LGBI]] du [[DBGS]] de l'I[[GBMC]] 074cfd60b8cbd2d34d4c28f26006339344547d28 1595 1594 2007-04-19T17:46:37Z 212.198.202.135 0 wikitext text/x-wiki Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi] Je suis Ingénieur de Recherche CNRS <br/> membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]] <br/> du Départment de Biologie et Génomique Structurales [[DBGS]] <br/> de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]] b21b8bc341e82c8fab517cbe6e33ed193937d810 1596 1595 2007-04-19T17:48:57Z 212.198.202.135 0 wikitext text/x-wiki Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi] Je suis Ingénieur de Recherche CNRS, membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]] 48eb58121b4abb2a1cb69e5028edb72e4f6f448b 1597 1596 2007-04-19T17:51:36Z 212.198.202.135 0 wikitext text/x-wiki Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi] Je suis Ingénieur de Recherche CNRS, membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]] ==Ma vie mon oeuvre== db72fb4d7a7d39a33c7f9598cacb7c08d5bee12d 1615 1597 2007-04-25T13:14:01Z 130.79.78.212 0 wikitext text/x-wiki Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi] Je suis Ingénieur de Recherche CNRS, membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]] ==Ma vie mon oeuvre== [http://raymondripp.fr mapage] c2de5bc1080fffd4d3513dd46dfba0e4a86c9e58 Yannick-Noël Anno 0 1336 1600 2007-04-22T14:42:42Z Yannick-Noel 6 wikitext text/x-wiki == Parcours == * 1979-1979: Naissance, 3,250 kgs * (...) * 2000-2001: Maitrise de Biologie Cellulaire & Physiologie * 2001-2005: Informaticien * 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007) == Thèmatique de recherche == Localisation des sites de fixation de facteurs de transcription (TFBS) == Utilitaires == * '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGenes par défaut) * '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut) * '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour) * '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC) * '''LocInBoost''' : Recherche si un TFBS se retrouve dans un gène (UTR, CDS, introns) et à quelle distance du gène et de l'entité (intron/exon). (Données par défaut : UCSC knownGenes) * '''Mapper''' : Recherche le gène le plus proche d'un TFBS (peu importe le brin, en 5', interne ou en 3') et fournit la distance au TSS en vue d'un mapping sur un chromosome moyen. (S'appuie sur LocInBoost, LocAfterBoost et LocBeforeBoost) * '''Dispatch''' : Classe les distances de Mapper par tranches de N paires de bases en vue d'une représentation graphique. 0d9256aab03324cc61dec517cd3cbc4a975c9e77 Sophie Candel 0 1337 1616 2007-04-25T13:21:42Z 130.79.78.245 0 wikitext text/x-wiki [www-bio3d-igbmc-u.strasbg.fr/groupes/poch/candel/PresentationUIMA.ppt Présentation UIMA] f53e3120bb708b45bb864700791353f5e8a19a89 Sophie Candel 0 1337 1617 1616 2007-04-25T13:23:03Z 130.79.78.245 0 wikitext text/x-wiki [www-bio3d-igbmc-u.strasbg.fr/groupes/poch/~candel/PresentationUIMA.ppt Présentation UIMA] e1d6bcd47116ab077a0c8aab9607c1cd54041494 1618 1617 2007-04-25T13:24:30Z 130.79.78.245 0 wikitext text/x-wiki [www-bio3d-igbmc-u.strasbg.fr/groupes/poch/~candel/PresentationUIMA.ppt PrésentationUIMA] [www.google.fr toto] fe7a46c5c40e20f01a380230c8ba6e61a0b1fa2b 1619 1618 2007-04-25T13:27:56Z 130.79.78.245 0 wikitext text/x-wiki [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt PrésentationUIMA] [www.google.fr toto] 20cad35e1f8cedc97d8680da63dc905069fce283 1620 1619 2007-04-25T13:28:49Z 130.79.78.245 0 wikitext text/x-wiki [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 42c05c8b8b38c88c12c2e905a3e3912506de70b0 1621 1620 2007-04-25T13:33:08Z 130.79.78.245 0 wikitext text/x-wiki [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://www.research.ibm.com/UIMA/ IBM, projet UIMA] [http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) a0561b23dcdf09a1c9bdebf0fdf9bb61757a3dec 1622 1621 2007-04-25T13:41:55Z 130.79.78.245 0 wikitext text/x-wiki [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://www.research.ibm.com/UIMA/ IBM, projet UIMA] [http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] 15e85d4a6121597e7e446ded2063c0ee328d1e33 1623 1622 2007-04-26T07:11:36Z 130.79.78.245 0 wikitext text/x-wiki [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://www.research.ibm.com/UIMA/ IBM, projet UIMA] [http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] 6754ee2618d34f153e2bb271ae85b23845f11e41 File:JavOO.png 6 1338 1624 2007-04-26T09:40:26Z Berthomg 8 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 JavOO 0 1331 1625 1613 2007-04-26T12:32:38Z Berthomg 8 /* Usage */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, deconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). 7ae634581e98a5b080694ab06523693ae3853727 1626 1625 2007-04-26T13:16:42Z Berthomg 8 /* Configuration */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection. {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, deconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). e96d7e35c9c97e0c801ff8ed9be965203a4b8d23 1632 1626 2007-04-26T14:58:49Z Berthomg 8 /* How to create a selection in Excel */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection. {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, deconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). 1c5bf6c5a93f3485a749aa9f16d12e9729febdce 1633 1632 2007-04-26T15:03:00Z Berthomg 8 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection. *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, deconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ae6bc05fc1aacec17005d1bc4d3426cfb52644f0 1634 1633 2007-04-26T15:08:35Z Berthomg 8 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection. *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, deconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at <Guillaume.Berthommier@igbmc.u-strasbg.fr> . e8e1aed57d7f9afc5b824e03a02754e22a4c59b5 1636 1634 2007-04-27T12:59:22Z 130.79.77.139 0 /* Installation */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here]. ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection. *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, deconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at <Guillaume.Berthommier@igbmc.u-strasbg.fr> . fc71c94814f4f97a6012b5dddc367937f03bd668 1642 1636 2007-04-30T14:22:05Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection. *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, deconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at <Guillaume.Berthommier@igbmc.u-strasbg.fr> . b20ebbdff8d3ad26c6e0c2385fe2f1c4f7858539 1643 1642 2007-04-30T14:44:31Z 130.79.77.139 0 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, disconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at <Guillaume.Berthommier@igbmc.u-strasbg.fr> . 6480d9139b2d1a37fe8c2fdc99ba5712ce00d0e4 1659 1643 2007-05-04T09:28:30Z Dkieffer 2 /* Troubleshooting */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. ==Download== The actual version is beta 1.0 . You can download the Windows installer ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, disconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . 67e86ac9728737b1c1503469ea3993405f422ef2 1670 1659 2007-05-09T09:37:08Z Berthomg 8 /* Introduction */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. For example : a laboratory in Madrid has an accessible PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection). The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . You can download the Windows installer ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, disconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . 79d7e47be8cb68f7f5e7657699bdc821b8ae51cc 1671 1670 2007-05-09T09:39:32Z Berthomg 8 /* Download */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. For example : a laboratory in Madrid has an accessible PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection). The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to Guillaume.Berthommier@igbmc.u-strasbg.fr ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, disconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . 91796aa20740ce37bb7ce94d56001d6671afe304 1672 1671 2007-05-09T09:41:19Z Berthomg 8 /* Download */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. For example : a laboratory in Madrid has an accessible PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection). The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, disconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . 616e4a2a41f009b31d15184482657895163df2cc 1673 1672 2007-05-09T09:54:47Z Berthomg 8 /* Installation */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. For example : a laboratory in Madrid has an accessible PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection). The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, disconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . 77dbb8152195bdc3acd06206031b3b1fd255e3c0 1674 1673 2007-05-09T15:34:14Z Ripp 1 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection). The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, disconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . 25b877c3e6f6edb5b68c927ca957198864ab0152 1675 1674 2007-05-10T13:41:13Z Berthomg 8 /* Installation */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection). The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, disconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button will be used for further development. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . b886f07030168a09e5e7e1a782dc93fdbaeeb3d6 LBGI 0 1280 1627 1592 2007-04-26T13:28:47Z 130.79.77.179 0 wikitext text/x-wiki Le Laboratoire de BioInformatique et Génomique Intégratives Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. Le Wiki de [[Laëtitia]]. fe199322e4fb26b7da8433cb66c496af08e8c78f 1635 1627 2007-04-27T07:44:05Z 130.79.78.212 0 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] Le Wiki de [[Laëtitia]]. bc36e1beefee18080e151ebf6db37460b0944efc User:Dkieffer 2 1305 1628 1543 2007-04-26T13:43:06Z Dkieffer 2 /* Mon parcours au LBGI */ wikitext text/x-wiki =Mon parcours au LBGI= Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker. Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker. =Ingénieur chez Genclis= Ingénieur d'étude depuis 2007 à Genclis Nancy. =Travaux= ==Journal Club== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_13_03_07/ Journal Club du 13 mars 2007] =liens= [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/ Mes pages pros] 6c69fc10caf9940e05e691306f01a85461fff7b0 Unix 0 1312 1629 1549 2007-04-26T13:49:44Z Dkieffer 2 /* Redirections et tube */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |vi nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |<nowiki>commande_1 | commande_2 </nowiki> |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =Script bash= [http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite] =sources= Initiation à la bioinformatique O'Reilly 358a50877533fcc66e1b77db07890131ed5bc7ef 1676 1629 2007-05-23T08:57:57Z Dkieffer 2 /* Visualisation et traitement de fichiers */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |[[vi]] nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |<nowiki>commande_1 | commande_2 </nowiki> |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =Script bash= [http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite] =sources= Initiation à la bioinformatique O'Reilly 52298207cc2575ed82375767b76af4d310a93e91 Membres du LBGI 0 1333 1630 1593 2007-04-26T13:54:12Z Dkieffer 2 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] * [[Radhouene Aniba]] * [[Yannick-Noël Anno]] * [[Yahya Benabbou]] * [[Guillaume Berthommier]] * [[Laurent Bianchetti]] * [[Yann Brélivet]] * [[Sophie Candel]] * [[Annaïck Carles]] * [[Anne Friederich]] * [[Nicolas Gagnière]] * [[Véronique Geoffroy]] * [[User:Dkieffer | David Kieffer]] * [[Odile Lecompte]] * [[Luc Moulinier]] * [[Ngoc-Hoan Nguyen]] * [[Frédéric Plewniak]] * [[Emmanuel Perrodou]] * [[Olivier Poch]] * [[Laëtitia Poidevin]] * [[Wolfgang Raffelsberger]] * [[Ravikiran Reddy]] * [[Raymond Ripp]] * [[Jean-Claude Thierry]] * [[Julie Thompson]] * [[Nicolas Wicker]] 2fe69d9d552f88bc3086eef649e835295aba512a CVS 0 1317 1631 1490 2007-04-26T14:57:07Z Dkieffer 2 wikitext text/x-wiki '''Concurrent Versions System''' est un système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt. Il permet également aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations. CVS est installé sur alnitak. Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr?subject=CVS%20Inscription Nicolas Gagnière]. Vous aurez un répertoire sur /cvs qui sera sous votre responsabilité pour les droits et l'arborescence de vos projets. =Voir aussi= [http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia] [http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa] [http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com] 88173871b051051c5aaa036523e6a1312cb4bce1 Main Page 0 1279 1637 1582 2007-04-28T00:10:31Z 72.32.12.157 0 wikitext text/x-wiki [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832254) wwe ringtones] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=311&FORUM_ID=3&CAT_ID=3 buy fioricet] [http://dompasvi.jubiiblog.de/ sony ericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1069 carisoprodol online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=320 clonazepam online] [http://livarsit.blogdiario.com/ qwest ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$108 paxil online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832252) cheap vicodin] [http://www.forumhosting.org/forum.php?mforum=dehays cheap alprazolam] [http://relc4tel.jubiiblog.de/ propecia] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1070 xanax online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=115 xanax online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=324 didrex online] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=307&FORUM_ID=3&CAT_ID=3 phentermine online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=139 didrex online] [http://peacedoorball.blogspot.com valium without prescription] [http://www.rso.cmich.edu/prevet/messageboard/000031b6.htm norco online] [http://boc4tmon.blogdiario.com/ nokia ringtones] [http://darrota.blogdiario.com/ free sony ringtones] [http://naughtyburrito.blogspot.com 10 best casino online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=366 order viagra] [http://www.forumhosting.org/forum.php?mforum=acelsitrac free nextel ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$133 ultram online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=321 free cool ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832219) but lorazepam] [http://www.csun.edu/learningnet/discussion/file.php?0,file=154 cingular ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031aa.htm valium online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1122 real ringtones] [http://acolosit.jubiiblog.de/ free qwest ringtones] [http://trocviboc.blogdiario.com/ alprazolam online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=114 carisoprodol online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832212) free funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832214) hydrocodone online] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=305&FORUM_ID=3&CAT_ID=3 cheap valium] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1111 buy hgh] [http://getcopas.blogdiario.com/ ultracet online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=140 nokia ringtones] [http://eudrayv.blogspot.com picture pill valium] [http://www.forumhosting.org/forum.php?mforum=varbocget lorazepam online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=357 free sony ringtones] [http://bascoor.blogdiario.com/ cheap nexium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=153 free polyphonic ringtones] [http://eldronno.jubiiblog.de/ cheap zoloft] [http://domlili.blogdiario.com/ cool ringtones] [http://psmorrison.blogspot.com snorting valium] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=298&FORUM_ID=3&CAT_ID=3 cheap tramadol] [http://www.rso.cmich.edu/prevet/messageboard/000031d0.htm free mp3 ringtone] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1071 cheap fioricet] [http://zellial.jubiiblog.de/ ultracet online] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$138 but xanax] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$137 vicodin] [http://nodarel.blogdiario.com/ cheap meridia] [http://smallbald.blogspot.com best casino gambling online] [http://chuvak-org.blogspot.com valium dosage] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/citybix.htm xanax online] [http://elcnazel.blogdiario.com/ prozac online] [http://discussions.csbsju.edu/general/messages/25/tonywe-230.html cheap carisoprodol] [http://www.forumhosting.org/forum.php?mforum=ololitroc cheap propecia] [http://ersitget.jubiiblog.de/ lisinopril online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832197) alprazolam online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=151 free music ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$89 alprazolam online] [http://www.rso.cmich.edu/prevet/messageboard/000031d5.htm real ringtones] [http://reltrdar.blogdiario.com/ propecia] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$102 motorola ringtones] [http://domc4tvi.blogdiario.com/ but soma] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1103 buy tenuate] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$87 adipex online] [http://discussions.csbsju.edu/general/messages/25/rizo-242.html meridia online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832239) samsung ringtones] [http://getelor.blogdiario.com/ free mtv ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=146 free qwest ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832200) cheap carisoprodol] [http://c4tacdom.jubiiblog.de/ free sonyericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1082 cheap clonazepam] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$112 free real ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1073 diazepam online] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/konevow.htm mono ringtones] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/soseh.htm free verizon ringtone] [http://caboel.blogdiario.com/ clonazepam online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1139 wwe ringtones] [http://drongetpas.blogdiario.com/ online didrex] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/pinyt.htm free sprint ringtone] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832195) buy adipex] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832202) free cingular ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=110 tramadol online] [http://mkiss47346.blogspot.com advice casino online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832240) free sharp ringtones] [http://www.forumhosting.org/forum.php?mforum=monoror cheap cyclobenzaprine] [http://www.forumhosting.org/forum.php?mforum=rellileto free sprint ringtones] [http://discussions.csbsju.edu/general/messages/25/rojyl-228.html cheap valium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=122 meridia online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832244) free sonyericsson ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=313 free alltel ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=328 funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832247) buy ultracet] [http://eralchi.blogdiario.com/ music ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1067 cheap valium] [http://www.forumhosting.org/forum.php?mforum=fonewbur cialis online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=346 phentermine online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1143 free mtv ringtones] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/hocij.htm generic levitra] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1116 free free ringtones] [http://www.forumhosting.org/forum.php?mforum=wolena clonazepam online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1127 verizon ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031b3.htm generic viagra] [http://www.forumhosting.org/forum.php?mforum=cnaorboc buy ambien] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=342 nextel ringtones] [http://elllimacc87.blogspot.com lexapro and valium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=131 ambien online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=368 wellbutrin online] [http://www.forumhosting.org/forum.php?mforum=getboctroc buy wellbutrin] [http://www.forumhosting.org/forum.php?mforum=pasletosit tracfone ringtones] [http://www.forumhosting.org/forum.php?mforum=rolouacel free mp3 ringtones] [http://basacelta.blogdiario.com/ real ringtones] [http://www.forumhosting.org/forum.php?mforum=escaffey phentermine] [http://www.forumhosting.org/forum.php?mforum=pijasper soma online] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/vuzo.htm diazepam online] [http://www.forumhosting.org/forum.php?mforum=tevaith norco online] [http://bocvidom.jubiiblog.de/ cheap fioricet] [http://eltaget.jubiiblog.de/ cingular ringtones] [http://sitbasel.jubiiblog.de/ free real ringtones] [http://nodelolo.jubiiblog.de/ cheap albuterol] [http://www.forumhosting.org/forum.php?mforum=darerla polyphonic ringtones] [http://caviou.jubiiblog.de/ prozac online] [http://rolvidel.jubiiblog.de/ cheap cialis] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=315 online ambien] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1102 celexa online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1093 propecia online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=149 samsung ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832223) motorola ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1118 free funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832245) free sprint ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=150 free sprint ringtones] [http://cocoleto.blogdiario.com/ cheap phentermine] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$97 free free ringtones] [http://trrelvar.blogdiario.com/ kyocera ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1114 buy zyban] [http://www.csun.edu/learningnet/discussion/file.php?0,file=158 free mono ringtones] [http://discussions.csbsju.edu/general/messages/25/gulel-233.html ultram online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1088 online xenical] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/veco.htm free real ringtones] [http://chibovi.blogdiario.com/ cheap xenical] [http://www.forumhosting.org/forum.php?mforum=chitrel cingular ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=331 free kyocera ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$122 sonyericsson ringtones] [http://handspunyarns.blogspot.com valium overdose] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832209) free ericsson ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=326 fioricet] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$116 cheap soma] [http://liricbo.blogdiario.com/ wellbutrin online] [http://carolli.blogdiario.com/ cheap fioricet] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1089 cheap wellbutrin] [http://www.forumhosting.org/forum.php?mforum=olositbo sharp ringtones] [http://leeticarus.blogspot.com what does valium do] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=341 nexium online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1138 midi ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=156 free sonyericsson ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031c4.htm cheap paxil] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832221) free midi ringtones] [http://sand-stars.blogspot.com valium sale] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1086 cheap ambien] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$124 free sprint ringtones] [http://orladron.jubiiblog.de/ cheap adipex] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=316 ativan online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1091 buy nexium] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/zyxuwu.htm free sagem ringtone] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832199) cheap ativan] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=336 mono ringtones] [http://delricc.blogdiario.com/ cheap lorazepam] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=327 free ringtones] [http://taroelt.jubiiblog.de/ free mono ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=147 real ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031b2.htm cheap ativan] [http://discussions.csbsju.edu/general/messages/25/gejobi-229.html buy phentermine] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/popydi.htm cheap norco] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1142 ericsson ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$92 cialis online] [http://www.forumhosting.org/forum.php?mforum=acdrago ultram online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832229) free nokia ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=129 cheap levitra] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832237) free real ringtones] [http://cacorol.blogdiario.com/ ericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1104 cheap ortho] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832211) free ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=353 samsung ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832206) order cyclobenzaprine] [http://relgetvar.jubiiblog.de/ cheap wellbutrin] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=349 free punk ringtones] [http://pasorbas.jubiiblog.de/ free cool ringtones] [http://vigetc.jubiiblog.de/ clomid online] [http://livior.blogdiario.com/ free alltel ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1106 cheap lortab] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832207) online diazepam] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1130 free sagem ringtones] [http://www.forumhosting.org/forum.php?mforum=sajohnst ativan online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1123 motorola ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$105 free nextel ringtones] [http://racalmon.jubiiblog.de/ meridia online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1115 nokia ringtones] Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. c055d22b266ab9795b97296844bac56e0bf40491 1640 1637 2007-04-29T22:45:55Z 217.27.95.70 0 wikitext text/x-wiki [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=14 soma online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/hebur.htm qwest ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=756 free verizon ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=729 cheap clonazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SherylDiu/kygo.htm free kyocera ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BilyKroft/suvycez.htm cheap soma] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/jucidul.htm cheap hgh] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pyro.htm buy ambien] [http://grid.unimelb.edu.au/twiki/pub/Main/NoriJohn/bepi.htm free nextel ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000315.html xenical online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kyvydin.htm norco online] [http://dcc.syr.edu/dforum/message.asp?MessageID=48834 cheap tramadol] [http://dcc.syr.edu/dforum/message.asp?MessageID=49026 vicodin online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/tidu.htm verizon ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/jivugyv.htm free alltel ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000371.html music ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=748 soma online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=52 funny ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=731 funny ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/cogope.htm cialis] [http://dcc.syr.edu/dforum/message.asp?MessageID=49058 tracfone ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/solizup.htm buy tramadol] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/ArturJonson xanax online] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/duxeru.htm but vigrx] [http://dcc.syr.edu/dforum/message.asp?MessageID=49066 samsung ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/wytyvib.htm fioricet online] [http://bugzilla.internet2.edu/attachment.cgi?id=741 buy paxil] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=40 cheap ambien] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/tijohyw.htm free sprint ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/jetok.htm mp3 ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=20 cheap fioricet] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/pefuwe.htm lipitor online] [http://ist.greenville.edu/drupal/files/wohux.html ultracet online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/ligi.htm tenuate online] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/cucof.htm soma online] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/LukeLookin cheap phentermine] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/pinucep.htm cheap vicodin] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/hujox.htm cheap ortho] [http://ist.greenville.edu/drupal/files/wusywyx.html cheap vicodin] [http://ist.greenville.edu/drupal/files/lunic.html cheap levitra] [http://dcc.syr.edu/dforum/message.asp?MessageID=49024 adipex] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/vuxinuz.htm motorola ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=722 adipex online] [http://www.hollins.edu/ubb/Forum32/HTML/000365.html free nextel ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=21 cheap ultram] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/jusify.htm nokia ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=262 free funny ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=48922 buy carisoprodol] [http://bugzilla.internet2.edu/attachment.cgi?id=742 buy phentermine] [http://www.hollins.edu/ubb/Forum32/HTML/000283.html valium online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/jowili.htm free qwest ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000342.html cheap tenuate] [http://bugzilla.internet2.edu/attachment.cgi?id=750 sonyericsson ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/licox.htm motorola ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000319.html cheap cyclobenzaprine] [http://www.hollins.edu/ubb/Forum32/HTML/000295.html norco online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/tokuny.htm lortab online] [http://www.hollins.edu/ubb/Forum32/HTML/000354.html cheap flexeril] [http://bugzilla.internet2.edu/attachment.cgi?id=752 free tracfone ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000285.html carisoprodol online] [http://www.hollins.edu/ubb/Forum32/HTML/000299.html paxil] [http://dcc.syr.edu/dforum/message.asp?MessageID=49063 qwest ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=249 tramadol online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/sywexyc.htm buy levitra] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/zexuc.htm didrex online] [http://www.hollins.edu/ubb/Forum32/HTML/000380.html punk ringtones] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kite.htm ultracet] [http://www.hollins.edu/ubb/Forum32/HTML/000311.html hydrocodone online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=42 buy xenical] [http://ist.greenville.edu/drupal/files/luho.html nokia ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/rufog.htm sprint ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/jujope.htm diethylpropion online] [http://www.hollins.edu/ubb/Forum32/HTML/000294.html online adipex] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/roteryh.htm polyphonic ringtones] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/AndreaHolivel cialis online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49016 ultram online] [http://www.hollins.edu/ubb/Forum32/HTML/000336.html clomid online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/hijosij.htm sagem ringtones] [http://ist.greenville.edu/drupal/files/bigibe.html nextel ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49027 order alprazolam] [http://www.hollins.edu/ubb/Forum32/HTML/000288.html cheap ultram] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/hicif.htm alprazolam online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/sujy.htm samsung ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=25 cheap viagra] [http://bugzilla.internet2.edu/attachment.cgi?id=735 free motorola ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/jybuhi.htm viagra online] [http://dcc.syr.edu/dforum/message.asp?MessageID=48916 cheap phentermine] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=256 cheap ultram] [http://bugzilla.internet2.edu/attachment.cgi?id=760 cheap diazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/xyhyj.htm rivotril online] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/vuru.htm ativan online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/hykidi.htm clonazepam online] [http://www.hollins.edu/ubb/Forum32/HTML/000281.html cheap tramadol] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=253 buy carisoprodol] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=26 cheap meridia] [http://ist.greenville.edu/drupal/files/dydyse.html cheap valium] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/rukexo.htm zoloft online] [http://ist.greenville.edu/drupal/files/kuxer.html order cyclobenzaprine] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/cybo.htm free sonyericsson ringtones] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/nezyz.htm flexeril online] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/lyfogo.htm online xanax] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/wofo.htm free nokia ringtones] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/sonuhop.htm valium online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pevesuz.htm cheap wellbutrin] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/rypel.htm sildenafil online] [http://www.hollins.edu/ubb/Forum32/HTML/000339.html cheap zoloft] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=251 cheap valium] [http://www.hollins.edu/ubb/Forum32/HTML/000384.html midi ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000290.html cheap cialis] [http://bugzilla.internet2.edu/attachment.cgi?id=744 free qwest ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=266 real ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/kino.htm free real ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/belizyl.htm polyphonic ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/dijuxoj.htm free tracfone ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000322.html cheap ultracet] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=28 cheap norco] [http://dcc.syr.edu/dforum/message.asp?MessageID=49072 polyphonic ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=732 levitra online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/woguked.htm ambien online] [http://www.hollins.edu/ubb/Forum32/HTML/000334.html sildenafil online] [http://www.hollins.edu/ubb/Forum32/HTML/000333.html prozac online] [http://ist.greenville.edu/drupal/files/rucod.html xanax online] [http://www.hollins.edu/ubb/Forum32/HTML/000343.html cheap ortho] [http://ist.greenville.edu/drupal/files/wypy.html free funny ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000296.html cheap vicodin] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BilyKroft/koky.htm cheap phentermine] [http://bugzilla.internet2.edu/attachment.cgi?id=740 norco online] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/figog.htm buy lortab] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kozu.htm hydrocodone online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=24 cheap ativan] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/godufit.htm buy paxil] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/sevuv.htm mono ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=755 valium] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/sicofyr.htm tramadol online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/kuvodoj.htm zoloft online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49034 hydrocodone] [http://dcc.syr.edu/dforum/message.asp?MessageID=49022 viagra online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/niwupu.htm cheap albuterol] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/gedenu.htm rivotril online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/dyzoko.htm verizon ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000314.html lorazepam] [http://grid.unimelb.edu.au/twiki/pub/Main/JackLawson/rejyvob.htm viagra online] [http://www.hollins.edu/ubb/Forum32/HTML/000325.html cheap didrex] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/kuzypuh.htm phentermine online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/nofelyr.htm free cingular ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000389.html ericsson ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49077 free sony ericsson ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=267 free motorola ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/kuluc.htm zanaflex online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/gekiw.htm order flexeril] [http://www.hollins.edu/ubb/Forum32/HTML/000369.html samsung ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=259 free nokia ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=22 diazepam online] [http://www.hollins.edu/ubb/Forum32/HTML/000376.html free sonyericsson ringtones] [http://ist.greenville.edu/drupal/files/devowy.html buy lorazepam] [http://ist.greenville.edu/drupal/files/role.html real ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000351.html rivotril] [http://www.hollins.edu/ubb/Forum32/HTML/000312.html ambien online] [http://www.hollins.edu/ubb/Forum32/HTML/000337.html albuterol online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49018 cialis online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49035 ambien online] [http://bugzilla.internet2.edu/attachment.cgi?id=746 sagem ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49025 norco online] [http://ist.greenville.edu/drupal/files/puweso.html cheap meridia] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/cibedis.htm nexium online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/zivy.htm free mono ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000352.html hgh online] [http://bugzilla.internet2.edu/attachment.cgi?id=754 ultram online] [http://ist.greenville.edu/drupal/files/ruwyze.html cheap ativan] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/linefej.htm buy wellbutrin] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/rofev.htm free free ringtones] [http://ist.greenville.edu/drupal/files/pobiwi.html cheap diazepam] [http://bugzilla.internet2.edu/attachment.cgi?id=751 free sprint ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000345.html lortab online] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/bopogo.htm buy carisoprodol] [http://dcc.syr.edu/dforum/message.asp?MessageID=49071 free verizon ringtones] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/relu.htm buy clomid] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/sifus.htm xenical online] [http://bugzilla.internet2.edu/attachment.cgi?id=759 order xanax] [http://www.hollins.edu/ubb/Forum32/HTML/000360.html free ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=43 wellbutrin online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=15 carisoprodol online] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/DikVolirev tracfone ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SherylDiu/popuxo.htm free sharp ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000291.html buy ativan] [http://ist.greenville.edu/drupal/files/covubi.html buy norco] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/wetule.htm free sony ericsson ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000362.html tracfone ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49075 free sonyericsson ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=48901 soma online] [http://www.hollins.edu/ubb/Forum32/HTML/000293.html meridia online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/gelol.htm zyban online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/rigyse.htm clonazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/kohe.htm free music ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pybex.htm cheap cyclobenzaprine] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/pero.htm cheap ativan] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/huvixu.htm paxil online] [http://grid.unimelb.edu.au/twiki/pub/Main/JackLawson/nunuso.htm cheap ativan] [http://dcc.syr.edu/dforum/message.asp?MessageID=49046 but nexium] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/cohufyk.htm mp3 ringtones] [http://pathology.jhu.edu/N/n.web?EP=N bd2753958c9bc647c8747ad0e86098ae894f762a 1653 1640 2007-05-03T12:37:59Z Gagniere 3 Reverted edit of 217.27.95.70, changed back to last version by 72.32.12.157 wikitext text/x-wiki [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832254) wwe ringtones] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=311&FORUM_ID=3&CAT_ID=3 buy fioricet] [http://dompasvi.jubiiblog.de/ sony ericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1069 carisoprodol online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=320 clonazepam online] [http://livarsit.blogdiario.com/ qwest ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$108 paxil online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832252) cheap vicodin] [http://www.forumhosting.org/forum.php?mforum=dehays cheap alprazolam] [http://relc4tel.jubiiblog.de/ propecia] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1070 xanax online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=115 xanax online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=324 didrex online] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=307&FORUM_ID=3&CAT_ID=3 phentermine online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=139 didrex online] [http://peacedoorball.blogspot.com valium without prescription] [http://www.rso.cmich.edu/prevet/messageboard/000031b6.htm norco online] [http://boc4tmon.blogdiario.com/ nokia ringtones] [http://darrota.blogdiario.com/ free sony ringtones] [http://naughtyburrito.blogspot.com 10 best casino online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=366 order viagra] [http://www.forumhosting.org/forum.php?mforum=acelsitrac free nextel ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$133 ultram online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=321 free cool ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832219) but lorazepam] [http://www.csun.edu/learningnet/discussion/file.php?0,file=154 cingular ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031aa.htm valium online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1122 real ringtones] [http://acolosit.jubiiblog.de/ free qwest ringtones] [http://trocviboc.blogdiario.com/ alprazolam online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=114 carisoprodol online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832212) free funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832214) hydrocodone online] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=305&FORUM_ID=3&CAT_ID=3 cheap valium] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1111 buy hgh] [http://getcopas.blogdiario.com/ ultracet online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=140 nokia ringtones] [http://eudrayv.blogspot.com picture pill valium] [http://www.forumhosting.org/forum.php?mforum=varbocget lorazepam online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=357 free sony ringtones] [http://bascoor.blogdiario.com/ cheap nexium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=153 free polyphonic ringtones] [http://eldronno.jubiiblog.de/ cheap zoloft] [http://domlili.blogdiario.com/ cool ringtones] [http://psmorrison.blogspot.com snorting valium] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=298&FORUM_ID=3&CAT_ID=3 cheap tramadol] [http://www.rso.cmich.edu/prevet/messageboard/000031d0.htm free mp3 ringtone] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1071 cheap fioricet] [http://zellial.jubiiblog.de/ ultracet online] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$138 but xanax] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$137 vicodin] [http://nodarel.blogdiario.com/ cheap meridia] [http://smallbald.blogspot.com best casino gambling online] [http://chuvak-org.blogspot.com valium dosage] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/citybix.htm xanax online] [http://elcnazel.blogdiario.com/ prozac online] [http://discussions.csbsju.edu/general/messages/25/tonywe-230.html cheap carisoprodol] [http://www.forumhosting.org/forum.php?mforum=ololitroc cheap propecia] [http://ersitget.jubiiblog.de/ lisinopril online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832197) alprazolam online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=151 free music ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$89 alprazolam online] [http://www.rso.cmich.edu/prevet/messageboard/000031d5.htm real ringtones] [http://reltrdar.blogdiario.com/ propecia] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$102 motorola ringtones] [http://domc4tvi.blogdiario.com/ but soma] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1103 buy tenuate] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$87 adipex online] [http://discussions.csbsju.edu/general/messages/25/rizo-242.html meridia online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832239) samsung ringtones] [http://getelor.blogdiario.com/ free mtv ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=146 free qwest ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832200) cheap carisoprodol] [http://c4tacdom.jubiiblog.de/ free sonyericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1082 cheap clonazepam] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$112 free real ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1073 diazepam online] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/konevow.htm mono ringtones] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/soseh.htm free verizon ringtone] [http://caboel.blogdiario.com/ clonazepam online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1139 wwe ringtones] [http://drongetpas.blogdiario.com/ online didrex] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/pinyt.htm free sprint ringtone] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832195) buy adipex] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832202) free cingular ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=110 tramadol online] [http://mkiss47346.blogspot.com advice casino online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832240) free sharp ringtones] [http://www.forumhosting.org/forum.php?mforum=monoror cheap cyclobenzaprine] [http://www.forumhosting.org/forum.php?mforum=rellileto free sprint ringtones] [http://discussions.csbsju.edu/general/messages/25/rojyl-228.html cheap valium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=122 meridia online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832244) free sonyericsson ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=313 free alltel ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=328 funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832247) buy ultracet] [http://eralchi.blogdiario.com/ music ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1067 cheap valium] [http://www.forumhosting.org/forum.php?mforum=fonewbur cialis online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=346 phentermine online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1143 free mtv ringtones] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/hocij.htm generic levitra] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1116 free free ringtones] [http://www.forumhosting.org/forum.php?mforum=wolena clonazepam online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1127 verizon ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031b3.htm generic viagra] [http://www.forumhosting.org/forum.php?mforum=cnaorboc buy ambien] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=342 nextel ringtones] [http://elllimacc87.blogspot.com lexapro and valium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=131 ambien online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=368 wellbutrin online] [http://www.forumhosting.org/forum.php?mforum=getboctroc buy wellbutrin] [http://www.forumhosting.org/forum.php?mforum=pasletosit tracfone ringtones] [http://www.forumhosting.org/forum.php?mforum=rolouacel free mp3 ringtones] [http://basacelta.blogdiario.com/ real ringtones] [http://www.forumhosting.org/forum.php?mforum=escaffey phentermine] [http://www.forumhosting.org/forum.php?mforum=pijasper soma online] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/vuzo.htm diazepam online] [http://www.forumhosting.org/forum.php?mforum=tevaith norco online] [http://bocvidom.jubiiblog.de/ cheap fioricet] [http://eltaget.jubiiblog.de/ cingular ringtones] [http://sitbasel.jubiiblog.de/ free real ringtones] [http://nodelolo.jubiiblog.de/ cheap albuterol] [http://www.forumhosting.org/forum.php?mforum=darerla polyphonic ringtones] [http://caviou.jubiiblog.de/ prozac online] [http://rolvidel.jubiiblog.de/ cheap cialis] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=315 online ambien] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1102 celexa online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1093 propecia online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=149 samsung ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832223) motorola ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1118 free funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832245) free sprint ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=150 free sprint ringtones] [http://cocoleto.blogdiario.com/ cheap phentermine] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$97 free free ringtones] [http://trrelvar.blogdiario.com/ kyocera ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1114 buy zyban] [http://www.csun.edu/learningnet/discussion/file.php?0,file=158 free mono ringtones] [http://discussions.csbsju.edu/general/messages/25/gulel-233.html ultram online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1088 online xenical] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/veco.htm free real ringtones] [http://chibovi.blogdiario.com/ cheap xenical] [http://www.forumhosting.org/forum.php?mforum=chitrel cingular ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=331 free kyocera ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$122 sonyericsson ringtones] [http://handspunyarns.blogspot.com valium overdose] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832209) free ericsson ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=326 fioricet] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$116 cheap soma] [http://liricbo.blogdiario.com/ wellbutrin online] [http://carolli.blogdiario.com/ cheap fioricet] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1089 cheap wellbutrin] [http://www.forumhosting.org/forum.php?mforum=olositbo sharp ringtones] [http://leeticarus.blogspot.com what does valium do] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=341 nexium online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1138 midi ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=156 free sonyericsson ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031c4.htm cheap paxil] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832221) free midi ringtones] [http://sand-stars.blogspot.com valium sale] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1086 cheap ambien] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$124 free sprint ringtones] [http://orladron.jubiiblog.de/ cheap adipex] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=316 ativan online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1091 buy nexium] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/zyxuwu.htm free sagem ringtone] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832199) cheap ativan] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=336 mono ringtones] [http://delricc.blogdiario.com/ cheap lorazepam] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=327 free ringtones] [http://taroelt.jubiiblog.de/ free mono ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=147 real ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031b2.htm cheap ativan] [http://discussions.csbsju.edu/general/messages/25/gejobi-229.html buy phentermine] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/popydi.htm cheap norco] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1142 ericsson ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$92 cialis online] [http://www.forumhosting.org/forum.php?mforum=acdrago ultram online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832229) free nokia ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=129 cheap levitra] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832237) free real ringtones] [http://cacorol.blogdiario.com/ ericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1104 cheap ortho] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832211) free ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=353 samsung ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832206) order cyclobenzaprine] [http://relgetvar.jubiiblog.de/ cheap wellbutrin] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=349 free punk ringtones] [http://pasorbas.jubiiblog.de/ free cool ringtones] [http://vigetc.jubiiblog.de/ clomid online] [http://livior.blogdiario.com/ free alltel ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1106 cheap lortab] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832207) online diazepam] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1130 free sagem ringtones] [http://www.forumhosting.org/forum.php?mforum=sajohnst ativan online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1123 motorola ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$105 free nextel ringtones] [http://racalmon.jubiiblog.de/ meridia online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1115 nokia ringtones] Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. c055d22b266ab9795b97296844bac56e0bf40491 1654 1653 2007-05-03T12:39:37Z Gagniere 3 Reverted edit of Gagniere, changed back to last version by 217.27.95.70 wikitext text/x-wiki [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=14 soma online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/hebur.htm qwest ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=756 free verizon ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=729 cheap clonazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SherylDiu/kygo.htm free kyocera ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BilyKroft/suvycez.htm cheap soma] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/jucidul.htm cheap hgh] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pyro.htm buy ambien] [http://grid.unimelb.edu.au/twiki/pub/Main/NoriJohn/bepi.htm free nextel ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000315.html xenical online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kyvydin.htm norco online] [http://dcc.syr.edu/dforum/message.asp?MessageID=48834 cheap tramadol] [http://dcc.syr.edu/dforum/message.asp?MessageID=49026 vicodin online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/tidu.htm verizon ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/jivugyv.htm free alltel ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000371.html music ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=748 soma online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=52 funny ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=731 funny ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/cogope.htm cialis] [http://dcc.syr.edu/dforum/message.asp?MessageID=49058 tracfone ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/solizup.htm buy tramadol] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/ArturJonson xanax online] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/duxeru.htm but vigrx] [http://dcc.syr.edu/dforum/message.asp?MessageID=49066 samsung ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/wytyvib.htm fioricet online] [http://bugzilla.internet2.edu/attachment.cgi?id=741 buy paxil] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=40 cheap ambien] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/tijohyw.htm free sprint ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/jetok.htm mp3 ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=20 cheap fioricet] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/pefuwe.htm lipitor online] [http://ist.greenville.edu/drupal/files/wohux.html ultracet online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/ligi.htm tenuate online] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/cucof.htm soma online] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/LukeLookin cheap phentermine] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/pinucep.htm cheap vicodin] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/hujox.htm cheap ortho] [http://ist.greenville.edu/drupal/files/wusywyx.html cheap vicodin] [http://ist.greenville.edu/drupal/files/lunic.html cheap levitra] [http://dcc.syr.edu/dforum/message.asp?MessageID=49024 adipex] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/vuxinuz.htm motorola ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=722 adipex online] [http://www.hollins.edu/ubb/Forum32/HTML/000365.html free nextel ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=21 cheap ultram] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/jusify.htm nokia ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=262 free funny ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=48922 buy carisoprodol] [http://bugzilla.internet2.edu/attachment.cgi?id=742 buy phentermine] [http://www.hollins.edu/ubb/Forum32/HTML/000283.html valium online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/jowili.htm free qwest ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000342.html cheap tenuate] [http://bugzilla.internet2.edu/attachment.cgi?id=750 sonyericsson ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/licox.htm motorola ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000319.html cheap cyclobenzaprine] [http://www.hollins.edu/ubb/Forum32/HTML/000295.html norco online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/tokuny.htm lortab online] [http://www.hollins.edu/ubb/Forum32/HTML/000354.html cheap flexeril] [http://bugzilla.internet2.edu/attachment.cgi?id=752 free tracfone ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000285.html carisoprodol online] [http://www.hollins.edu/ubb/Forum32/HTML/000299.html paxil] [http://dcc.syr.edu/dforum/message.asp?MessageID=49063 qwest ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=249 tramadol online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/sywexyc.htm buy levitra] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/zexuc.htm didrex online] [http://www.hollins.edu/ubb/Forum32/HTML/000380.html punk ringtones] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kite.htm ultracet] [http://www.hollins.edu/ubb/Forum32/HTML/000311.html hydrocodone online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=42 buy xenical] [http://ist.greenville.edu/drupal/files/luho.html nokia ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/rufog.htm sprint ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/jujope.htm diethylpropion online] [http://www.hollins.edu/ubb/Forum32/HTML/000294.html online adipex] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/roteryh.htm polyphonic ringtones] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/AndreaHolivel cialis online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49016 ultram online] [http://www.hollins.edu/ubb/Forum32/HTML/000336.html clomid online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/hijosij.htm sagem ringtones] [http://ist.greenville.edu/drupal/files/bigibe.html nextel ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49027 order alprazolam] [http://www.hollins.edu/ubb/Forum32/HTML/000288.html cheap ultram] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/hicif.htm alprazolam online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/sujy.htm samsung ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=25 cheap viagra] [http://bugzilla.internet2.edu/attachment.cgi?id=735 free motorola ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/jybuhi.htm viagra online] [http://dcc.syr.edu/dforum/message.asp?MessageID=48916 cheap phentermine] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=256 cheap ultram] [http://bugzilla.internet2.edu/attachment.cgi?id=760 cheap diazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/xyhyj.htm rivotril online] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/vuru.htm ativan online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/hykidi.htm clonazepam online] [http://www.hollins.edu/ubb/Forum32/HTML/000281.html cheap tramadol] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=253 buy carisoprodol] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=26 cheap meridia] [http://ist.greenville.edu/drupal/files/dydyse.html cheap valium] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/rukexo.htm zoloft online] [http://ist.greenville.edu/drupal/files/kuxer.html order cyclobenzaprine] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/cybo.htm free sonyericsson ringtones] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/nezyz.htm flexeril online] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/lyfogo.htm online xanax] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/wofo.htm free nokia ringtones] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/sonuhop.htm valium online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pevesuz.htm cheap wellbutrin] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/rypel.htm sildenafil online] [http://www.hollins.edu/ubb/Forum32/HTML/000339.html cheap zoloft] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=251 cheap valium] [http://www.hollins.edu/ubb/Forum32/HTML/000384.html midi ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000290.html cheap cialis] [http://bugzilla.internet2.edu/attachment.cgi?id=744 free qwest ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=266 real ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/kino.htm free real ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/belizyl.htm polyphonic ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/dijuxoj.htm free tracfone ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000322.html cheap ultracet] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=28 cheap norco] [http://dcc.syr.edu/dforum/message.asp?MessageID=49072 polyphonic ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=732 levitra online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/woguked.htm ambien online] [http://www.hollins.edu/ubb/Forum32/HTML/000334.html sildenafil online] [http://www.hollins.edu/ubb/Forum32/HTML/000333.html prozac online] [http://ist.greenville.edu/drupal/files/rucod.html xanax online] [http://www.hollins.edu/ubb/Forum32/HTML/000343.html cheap ortho] [http://ist.greenville.edu/drupal/files/wypy.html free funny ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000296.html cheap vicodin] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BilyKroft/koky.htm cheap phentermine] [http://bugzilla.internet2.edu/attachment.cgi?id=740 norco online] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/figog.htm buy lortab] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kozu.htm hydrocodone online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=24 cheap ativan] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/godufit.htm buy paxil] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/sevuv.htm mono ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=755 valium] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/sicofyr.htm tramadol online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/kuvodoj.htm zoloft online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49034 hydrocodone] [http://dcc.syr.edu/dforum/message.asp?MessageID=49022 viagra online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/niwupu.htm cheap albuterol] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/gedenu.htm rivotril online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/dyzoko.htm verizon ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000314.html lorazepam] [http://grid.unimelb.edu.au/twiki/pub/Main/JackLawson/rejyvob.htm viagra online] [http://www.hollins.edu/ubb/Forum32/HTML/000325.html cheap didrex] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/kuzypuh.htm phentermine online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/nofelyr.htm free cingular ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000389.html ericsson ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49077 free sony ericsson ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=267 free motorola ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/kuluc.htm zanaflex online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/gekiw.htm order flexeril] [http://www.hollins.edu/ubb/Forum32/HTML/000369.html samsung ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=259 free nokia ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=22 diazepam online] [http://www.hollins.edu/ubb/Forum32/HTML/000376.html free sonyericsson ringtones] [http://ist.greenville.edu/drupal/files/devowy.html buy lorazepam] [http://ist.greenville.edu/drupal/files/role.html real ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000351.html rivotril] [http://www.hollins.edu/ubb/Forum32/HTML/000312.html ambien online] [http://www.hollins.edu/ubb/Forum32/HTML/000337.html albuterol online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49018 cialis online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49035 ambien online] [http://bugzilla.internet2.edu/attachment.cgi?id=746 sagem ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49025 norco online] [http://ist.greenville.edu/drupal/files/puweso.html cheap meridia] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/cibedis.htm nexium online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/zivy.htm free mono ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000352.html hgh online] [http://bugzilla.internet2.edu/attachment.cgi?id=754 ultram online] [http://ist.greenville.edu/drupal/files/ruwyze.html cheap ativan] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/linefej.htm buy wellbutrin] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/rofev.htm free free ringtones] [http://ist.greenville.edu/drupal/files/pobiwi.html cheap diazepam] [http://bugzilla.internet2.edu/attachment.cgi?id=751 free sprint ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000345.html lortab online] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/bopogo.htm buy carisoprodol] [http://dcc.syr.edu/dforum/message.asp?MessageID=49071 free verizon ringtones] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/relu.htm buy clomid] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/sifus.htm xenical online] [http://bugzilla.internet2.edu/attachment.cgi?id=759 order xanax] [http://www.hollins.edu/ubb/Forum32/HTML/000360.html free ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=43 wellbutrin online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=15 carisoprodol online] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/DikVolirev tracfone ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SherylDiu/popuxo.htm free sharp ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000291.html buy ativan] [http://ist.greenville.edu/drupal/files/covubi.html buy norco] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/wetule.htm free sony ericsson ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000362.html tracfone ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49075 free sonyericsson ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=48901 soma online] [http://www.hollins.edu/ubb/Forum32/HTML/000293.html meridia online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/gelol.htm zyban online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/rigyse.htm clonazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/kohe.htm free music ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pybex.htm cheap cyclobenzaprine] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/pero.htm cheap ativan] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/huvixu.htm paxil online] [http://grid.unimelb.edu.au/twiki/pub/Main/JackLawson/nunuso.htm cheap ativan] [http://dcc.syr.edu/dforum/message.asp?MessageID=49046 but nexium] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/cohufyk.htm mp3 ringtones] [http://pathology.jhu.edu/N/n.web?EP=N bd2753958c9bc647c8747ad0e86098ae894f762a 1655 1654 2007-05-03T12:42:38Z Gagniere 3 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. 1219895b371ec82ecf92f9fa76e7028bfefcde71 Alvinella 0 1311 1656 1546 2007-05-03T12:47:48Z Dkieffer 2 wikitext text/x-wiki 48053369391600495951863 9bd00dfacbc2e462ed5c3171df74bcfb86b1ebfd 1658 1656 2007-05-03T13:07:42Z Gagniere 3 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 Café des sciences 0 1322 1657 1561 2007-05-03T13:06:33Z Gagniere 3 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 3b2f42ca93eaad78268bd8624318386877899f93 RetChip 0 1299 1660 1371 2007-05-05T22:06:46Z Ripp 1 wikitext text/x-wiki Within the frame of the EVI-GENORET program we have designed and produced RETCHIP an oligonucleotide microarray to study mouse retinal development and degeneration. RETCHIP contains 1500 genes that are most relevant to retinal biology. The selection is based on the following criteria: # genes of interest for the participant, # genes mutated in inherited retinal degeneration, # genes hallmarks of relevant signalling pathways, # genes showing variation in expression identified from our Affymetrix experiment using the rd1 mouse. RETCHIP is very inexpensive (15 euros/slide, 2000 slides have already been produced) and will allow to do multiple experiments (time points, doses, ...) that may viewed as preliminary to more expensive analysis using more costly methods. This tool represents the possibility of working the experimental design carefully. RETCHIP is running on the national microarray platform at Luxembourg (Evelyn Friederich). This platform that is part of EVI-GENORET is also a facility where the hybridizations will be made. The trainees will have the opportunity to perform their experiments on the platform. Experiments performed using the chip should provide high level of standardization. In addition we have validated and broadly distributed a standard operation procedure to purify RNA from mouse retina using CsCl centrifugation (SOP within EVI-GENORET). See the [http://www-genoret.u-strasbg.fr/genoret/RetChip RetChip web page] 63ceee96ae41c95b91769bae37c7238e9ae8dc31 1661 1660 2007-05-05T22:08:24Z Ripp 1 wikitext text/x-wiki Within the frame of the EVI-GENORET program we have designed and produced RETCHIP an oligonucleotide microarray to study mouse retinal development and degeneration. RETCHIP contains 1500 genes that are most relevant to retinal biology. The selection is based on the following criteria: # genes of interest for the participant, # genes mutated in inherited retinal degeneration, # genes hallmarks of relevant signalling pathways, # genes showing variation in expression identified from our Affymetrix experiment using the rd1 mouse. RETCHIP is very inexpensive (15 euros/slide, 2000 slides have already been produced) and will allow to do multiple experiments (time points, doses, ...) that may viewed as preliminary to more expensive analysis using more costly methods. This tool represents the possibility of working the experimental design carefully. RETCHIP is running on the national microarray platform at Luxembourg (Laurent Vallard). This platform that is part of EVI-GENORET is also a facility where the hybridizations will be made. The trainees will have the opportunity to perform their experiments on the platform. Experiments performed using the chip should provide high level of standardization. In addition we have validated and broadly distributed a standard operation procedure to purify RNA from mouse retina using CsCl centrifugation (SOP within EVI-GENORET). See the [http://www-genoret.u-strasbg.fr/genoret/RetChip RetChip web page] fee7fcdc89a84ccf6b9801cad1c472c648e47ba4 R 0 1320 1662 1541 2007-05-07T10:16:23Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== Mai 2007: La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5.<br> L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ d9e2556571786d321902614b2c6580e25f543c57 1663 1662 2007-05-07T10:16:47Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (wr, Mai 2007).<br> L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 6c53957d0100cbfd03c9bdc59e98f309e69b58cf 1664 1663 2007-05-07T10:16:57Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR, Mai 2007).<br> L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 20d5dc02b76e8bfe5b6bba0db9fc7bdf426b3e52 1665 1664 2007-05-07T11:17:40Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR, Mai 2007).<br> L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN". Si vous avez besion d'un module pas encore installé veuillez vous addresser à wraff <br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ d37c7aa6335a15f1f0c29799e32d05ed973036e3 1668 1665 2007-05-07T11:27:47Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR, Mai 2007).<br> L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à Wolfgang [http://alnitak.u-strasbg.fr/wikili/index.php/Wolfgang_Raffelsberger]<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ bd0057d01df2533a7fed483960feebe3c3b68b59 1669 1668 2007-05-07T14:22:51Z Dkieffer 2 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR, Mai 2007).<br> L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger]].<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 97a3a54a3dedb25bfb842fd0fc6779ce44fcffaf Wolfgang Raffelsberger 0 1339 1666 2007-05-07T11:22:39Z Wraff 5 New page: Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~wraff] Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologi... wikitext text/x-wiki Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~wraff] Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]] 3f0d773dfbf55a8f67f0725d0a5b98774584bb71 1667 1666 2007-05-07T11:23:35Z Wraff 5 wikitext text/x-wiki Bonjour, voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff] Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]] fe701cacd1e880c1a13ef294f49d1e6e9d8bf20d Vi 0 1340 1677 2007-05-23T09:27:15Z Dkieffer 2 New page: Vi est l'éditeur de texte par excélence des système UNIX. Certain ont aussi vim qui est plus convivial. =lancement= vi [chemin du fichier] Au départ vous êtes en mode commande =le... wikitext text/x-wiki Vi est l'éditeur de texte par excélence des système UNIX. Certain ont aussi vim qui est plus convivial. =lancement= vi [chemin du fichier] Au départ vous êtes en mode commande =le mode commande= C'est le mode principal pour gérer votre fichier texte ==les commandes de navigations== * h déplace le curseur vers la gauche * j déplace le curseur vers la bas * k déplace le curseur vers la haut * l déplace le curseur vers la droite * b déplace le curseur au début du mot courant * e déplace le curseur a la fin du mot courant * w déplace le curseur au mot courant suivant * ) déplace le curseur vers la phrase suivante * ( déplace le curseur vers la phrase précédente ==les commandes de modifications== * x supprime le texte sous le curseur * X supprime le texte avant le curseur * dw supprime le texte jusqu'à la fin du mot courant * dd supprime la ligne courante remarque: si on tape un chiffre avant ces commandes, la commande sera exécutée autant de fois. Exemple: 6x, supprimera 6 caractères. ==les commandes de gestions== *Passage en mode insertion ** a place le curseur d'insertion après le curseur courant et passe en mode insertion ** i place le curseur d'insertion avant le curseur courant et passe en mode insertion ** A place le curseur d'insertion a la fin de la ligne courante et passe en mode insertion ** I place le curseur d'insertion en début de la ligne courante et passe en mode insertion ** o crée une ligne vide juste après la ligne courante, place le curseur d'insertion en début de cette nouvelle ligne et passe en mode insertion ** O crée une ligne vide juste avant la ligne courante, place le curseur d'insertion en début de cette nouvelle ligne et passe en mode insertion * sauver et quitter ** :w enregistre ** :q quitte ** :x sauve et quitte ** :q! quitte sans sauver. =le mode insertion= C'est le mode pour taper votre texte. Appuyer sur la touche échappement pour repasser en mode commande. 81c4736bd1703fe490be0cc60a8406fe5f0b3473 1678 1677 2007-05-23T09:33:48Z Dkieffer 2 /* les commandes de modifications */ wikitext text/x-wiki Vi est l'éditeur de texte par excélence des système UNIX. Certain ont aussi vim qui est plus convivial. =lancement= vi [chemin du fichier] Au départ vous êtes en mode commande =le mode commande= C'est le mode principal pour gérer votre fichier texte ==les commandes de navigations== * h déplace le curseur vers la gauche * j déplace le curseur vers la bas * k déplace le curseur vers la haut * l déplace le curseur vers la droite * b déplace le curseur au début du mot courant * e déplace le curseur a la fin du mot courant * w déplace le curseur au mot courant suivant * ) déplace le curseur vers la phrase suivante * ( déplace le curseur vers la phrase précédente ==les commandes de modifications== * x supprime le texte sous le curseur * X supprime le texte avant le curseur * dw supprime le texte jusqu'à la fin du mot courant * dd supprime la ligne courante remarque: si on tape un chiffre avant ces commandes, la commande sera exécutée autant de fois. Exemple: 6x, supprimera 6 caractères. * r (suivit d'une lettre) remplace le caractère sous le curseur courant par le lettre demandée. * R (suivit de n lettres) + échappement, remplace par les n caractères depuis le curseur courant ==les commandes de gestions== *Passage en mode insertion ** a place le curseur d'insertion après le curseur courant et passe en mode insertion ** i place le curseur d'insertion avant le curseur courant et passe en mode insertion ** A place le curseur d'insertion a la fin de la ligne courante et passe en mode insertion ** I place le curseur d'insertion en début de la ligne courante et passe en mode insertion ** o crée une ligne vide juste après la ligne courante, place le curseur d'insertion en début de cette nouvelle ligne et passe en mode insertion ** O crée une ligne vide juste avant la ligne courante, place le curseur d'insertion en début de cette nouvelle ligne et passe en mode insertion * sauver et quitter ** :w enregistre ** :q quitte ** :x sauve et quitte ** :q! quitte sans sauver. =le mode insertion= C'est le mode pour taper votre texte. Appuyer sur la touche échappement pour repasser en mode commande. 541be61d8cfe42ab8563c071c58afc435af871b5 Unix 0 1312 1679 1676 2007-05-23T09:47:36Z Dkieffer 2 /* Visualisation et traitement de fichiers */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |<nowiki>commande_1 | commande_2 </nowiki> |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =Script bash= [http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite] =sources= Initiation à la bioinformatique O'Reilly 4a3960856acf33fb08b92320fb97e57fe3e215d8 JavOO 0 1331 1680 1675 2007-05-28T07:53:11Z Berthomg 8 /* Usage */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection). The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] #'''STOP button''': Stop the server, disconnecting all clients. #'''START button''': Start the server, the server is ready to accept connections from clients. #'''Server Log Area''': Some actions executed by the server are logged in this text area. #'''Clear button''': This button clears the Server Log Area ('''3'''). #'''Save button''': This button will be used for further development. #'''Config button''': This button display the configuration window. It will be soon described. #'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3'''). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . c437e731daa843edd0e3567127a1e0d37cd9eb5a 1683 1680 2007-05-29T15:56:43Z Berthomg 8 /* Usage */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection). The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] ; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients. ; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients. ; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area. ; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described. ; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . d36da7444493faad25c32c2b704376d81d829ef0 1684 1683 2007-05-30T09:25:18Z Berthomg 8 /* Installation */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed through the native ODBC driver of Windows. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection). The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . <!-- Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe --> ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] ; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients. ; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients. ; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area. ; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described. ; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . b01305ff36464068036a0f722dd885e059c0e98f 1685 1684 2007-05-30T09:29:49Z Berthomg 8 /* Introduction */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native ODBC driver of Windows. The client will be able to do SQL select queries on these resources. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for SSL secure connection). The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . <!-- Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe --> ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] ; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients. ; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients. ; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area. ; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described. ; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . 83f8f24b7da12bb68315a970601bcc29dd80091f 1686 1685 2007-05-30T09:34:25Z Berthomg 8 /* Installation */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native ODBC driver of Windows. The client will be able to do SQL select queries on these resources. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for SSL secure connection). The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . <!-- Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe --> Then, you have to: #Give a name for your resource. #Declare the path to your file. #Declare the name of the sheet and regions you want to export (if it is an Excel file). ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] ; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients. ; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients. ; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area. ; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described. ; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . 75f2dc5cd5d0fee60e1a964de6a385aef080d870 1687 1686 2007-05-30T09:35:55Z Berthomg 8 /* Installation */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native ODBC driver of Windows. The client will be able to do SQL select queries on these resources. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for SSL secure connection). The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . <!-- Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe --> Then, you have to: #Give a name for your resource. #Declare the path to your file. #Declare the name of the sheet and region you want to export (if it is an Excel file). ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] ; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients. ; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients. ; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area. ; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described. ; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . c1e4bc4f9d48dfc75b233bd415a28bc34125ea53 1688 1687 2007-05-30T09:36:50Z Berthomg 8 /* Excel file */ wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native ODBC driver of Windows. The client will be able to do SQL select queries on these resources. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for SSL secure connection). The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . <!-- Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe --> Then, you have to: #Give a name for your resource. #Declare the path to your file. #Declare the name of the sheet and region you want to export (if it is an Excel file). ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific region of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a region of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] ; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients. ; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients. ; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area. ; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described. ; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . fb5781a87ac4d67a850683b79dfdc3b6075334ca 1689 1688 2007-05-30T09:46:03Z Berthomg 8 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native ODBC driver of Windows. The client will be able to do SQL select queries on these resources. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for SSL secure connection). The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation and Configuration== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . <!-- Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe --> Then, you have to: #Give a name for your resource. #Declare the path to your file. #Declare the name of the sheet and region you want to export (if it is an Excel file). ==Configuration== Now that you've installed JavOO, you need to add your Excel and/or Access resources. In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific region of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. ====How to create a selection in Excel==== #First select a region of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ===Access file=== <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> ==Usage== Here is a screenshot of the JavOO application: [[Image:JavOO.png]] ; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients. ; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients. ; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area. ; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described. ; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . ecf2f9fcded8f360f163c5d97622caa905de9bdb 1690 1689 2007-05-30T15:05:36Z Berthomg 8 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share Microsoft Access and Excel resources, which will be accessed by a distant client program through the native ODBC driver of Windows. The client will be able to do SQL select queries on these resources. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (and/or 18001 for SSL secure connection). The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation and Configuration== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ===Interface Description=== This is what you get when you launch JavOO: [[Image:JavOO.png]] ; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients. ; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients. ; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area. ; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be described below. ; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). <!-- Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe --> The first thing you have to do is declaring one or more resources (Excel and/or Access files), which is describe in the Configuration Section. ===Configuration Section=== Now that you've installed JavOO, you need to add your Excel and/or Access resources. For that, click on the <b>Config button (<span style="color:#F00;">6</span>)</b>, you get the <b>JavOO Server Configuration</b> window. <!-- In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> --> ====Excel File==== *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific region of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. =====How to create a selection in Excel===== #First select a region of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ====Access file==== <!-- <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> --> ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . 4b0d68b58ac57946dd8bf3d64a2908b5ef8e4993 1692 1690 2007-05-31T13:49:48Z Berthomg 8 wikitext text/x-wiki JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice. ==Introduction== JavOO is a small multithread secure server written in [[Java]] and working on Windows platform. It allows you to share Microsoft Access and Excel resources, which will be accessed by a distant client program through the native ODBC driver of Windows. The client will be able to do SQL select queries on these resources. For example: a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg. For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (and/or 18001 for SSL secure connection). The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid. ==Download== The actual version is beta 1.0 . <!--You can download the Windows installer--> To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ] ==Installation and Configuration== Double-click on the file ''JavOOsetup.exe'' and follow the instructions. By default the program will be installed in the directory ''C:\Program Files\JavOO\'' . ===Interface Description=== This is what you get when you launch JavOO: <center>[[Image:JavOO.png]]</center> ; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients. ; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients. ; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area. ; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). ; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be described below. ; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>). <!-- Here is the content of the installation directory: *JavOO **lib ***jaxen-1.1-beta-5.jar ***jdom.jar ***log4j-1.2.13.jar ***microba-0.4.4.jar ***swing-layout-1.0.jar **client_keystore **JavOO.ico **JavOO.jar **javoo.log: this is the application log, you can delete it if it takes too much space **javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''. **javooconfig.xml **README.TXT **server_keystore **testAccess.mdb **testExcel.xls **unins000.dat **unins000.exe --> The first thing you have to do is declaring one or more resources (Excel and/or Access files), which is describe in the Configuration Section. ===Configuration Section=== Now that you've installed JavOO, you need to add your Excel and/or Access resources. For that, click on the <b>Config button (<span style="color:#F00;">6</span>)</b>, you get the <b>JavOO Server Configuration</b> window. <center>[[Image:JavOOServerConfig.png]]</center> ; Resource list (<span style="color:#F00;">1</span>) : All defined resources are declared here. There are already three declared resources in JavOO that are here for testing purpose : see <b>Test Client button (<span style="color:#F00;">7</span>)</b> in the Interface Description section. ; Add New Excel (<span style="color:#F00;">2</span>) : Add a new empty Excel resource. Don't forget to enter a proper name for the resource (see further). ; Add New Access (<span style="color:#F00;">3</span>) : Add a new empty Access resource. Don't forget to enter a proper name for the resource (see further). ; Edit (<span style="color:#F00;">4</span>) : Allows you to edit an existing resource declared in the <b>Resource list (<span style="color:#F00;">1</span>)</b>. For that, select a resource in the list then press the button. ; Clone (<span style="color:#F00;">5</span>) : Allows you to clone an existing resource declared in the <b>Resource list (<span style="color:#F00;">1</span>)</b>. For that, select a resource in the list then press the button. ; Remove (<span style="color:#F00;">6</span>) : Allows you to remove an existing resource declared in the <b>Resource list (<span style="color:#F00;">1</span>)</b>. For that, select a resource in the list then press the button. <!-- In the install directory you'll find a file named '''''javooconfig.xml'''''. This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined. That is in this latest element where you will define your own resources. Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server. You can edit this file with you favorite text editor. ===Excel file=== <excel_resource name="testExcel" filepath="C:/path/to/the/file.xls" sheet="sheet" selection="selection" user="username" password="userpassword" readonly="true" /> --> ====Excel File==== *Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank. *The declaration of an Excel resource is a bit specific, let's see: **An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource. **Now the tricky part: the '''''selection''''' is a specific region of you sheet, containing the header line of the table and it's content. Here is an example of a selection: {| border="1" |- ! Name ! Age ! Gender |- | Bob || 30 || Male |- | Jane || 28 || Female |- | Cindy || 45 || Female |} The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible. =====How to create a selection in Excel===== #First select a region of your sheet containing the '''''header''''' and the '''''data''''' of your table. #Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''. #A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''. #Do not forget to save the file. ====Access file==== <!-- <access_resource name="testAccess" filepath="C:/path/to/the/file.mdb" user="username" password="userpassword" readonly="true" /> --> ==Troubleshooting== If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] . eb1e893bfb405e3f0c94db667bc058e6b1c0e041 Gscope Clonage 0 1318 1681 1555 2007-05-29T08:41:33Z Ripp 1 wikitext text/x-wiki '''Gscope Clonage''' * est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. * fait toutes les analyses possibles de vos séquences * dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquence=== * Pour cela il faut (l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond]) : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== ... qui vous aide à définir les domaines de la protéines ===Commande d'oligos=== * Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 * mais attention ... ** écrire les signaux correctement, avec majuscule et miniscules ** les _ séparent les signaux entre eux et avec la prot. ** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines. gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela. ===Verification de séquence=== ===Serait-ce un LIMS ?=== Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande. setgscope ProGS gscope A+ Raymond 317a3c2614894a3c4256e5fd82185ea42310336f 1682 1681 2007-05-29T10:14:24Z Ripp 1 wikitext text/x-wiki '''Gscope Clonage''' * est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. * fait toutes les analyses possibles de vos séquences * dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquence=== (l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond]) * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== (faite par Raymond avec Gscope) Vous aidera à définir les domaines de la protéines ===Commande d'oligos=== (faite par Raymond avec Gscope) * Il suffit de fournir un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 * mais attention ... ** écrire les signaux correctement, avec majuscule et miniscules ** les _ séparent les signaux entre eux et avec la prot. ** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines. gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela. ===Verification de séquence=== ===Serait-ce un LIMS ?=== Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande. setgscope ProGS gscope A+ Raymond 1ac53e42da59310fbbe85a64287eabeea632dbb1 1701 1682 2007-07-07T09:55:36Z Ripp 1 wikitext text/x-wiki '''Gscope Clonage''' Gscope Clonage est maintenant disponible (en lecture uniquement pour le moment) sur le web sur [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr] * est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. * fait toutes les analyses possibles de vos séquences * dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquence=== (l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond]) * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== (faite par Raymond avec Gscope) Vous aidera à définir les domaines de la protéines ===Commande d'oligos=== (faite par Raymond avec Gscope) * Il suffit de fournir un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 * mais attention ... ** écrire les signaux correctement, avec majuscule et miniscules ** les _ séparent les signaux entre eux et avec la prot. ** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines. gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela. ===Verification de séquence=== ===Serait-ce un LIMS ?=== Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande. setgscope ProGS gscope A+ Raymond d5302778c82ec1e220b74abd5bc4a5db914b3ac6 1702 1701 2007-07-07T10:06:16Z Ripp 1 wikitext text/x-wiki '''Gscope Clonage''' Gscope Clonage est maintenant disponible (en lecture uniquement pour le moment) sur le web sur [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr] * est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. * fait toutes les analyses possibles de vos séquences * dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquence=== (l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond]) * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== (faite par Raymond avec Gscope) Vous aidera à définir les domaines de la protéines ===Commande d'oligos=== (faite par Raymond avec Gscope) * Il suffit de fournir un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 * mais attention ... ** écrire les signaux correctement, avec majuscule et minuscules ** les _ séparent les signaux entre eux et avec la prot. ** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines. gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela. ===Verification de séquence=== ===Serait-ce un LIMS ?=== Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande. setgscope ProGS gscope A+ Raymond 8963dcb5318c7e941384bba9db7698bd1e77bb69 1703 1702 2007-07-07T10:07:06Z Ripp 1 wikitext text/x-wiki Gscope Clonage est maintenant disponible (en lecture uniquement pour le moment) sur le web sur [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr] '''Gscope Clonage''' * est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle. * fait toutes les analyses possibles de vos séquences * dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café. ===Création de la séquence=== (l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond]) * Pour cela il faut : ** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu. ** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc. ** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)." ** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.) ===Analyse de séquence=== (faite par Raymond avec Gscope) Vous aidera à définir les domaines de la protéines ===Commande d'oligos=== (faite par Raymond avec Gscope) * Il suffit de fournir un fichier contenant les lignes suivantes (c'est un exemple !) AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2 AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2 * mais attention ... ** écrire les signaux correctement, avec majuscule et minuscules ** les _ séparent les signaux entre eux et avec la prot. ** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines. gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela. ===Verification de séquence=== ===Serait-ce un LIMS ?=== Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande. setgscope ProGS gscope A+ Raymond f11794455ce8a7643469fa1f2dece2fc67d3e4e4 File:JavOOServerConfig.png 6 1341 1691 2007-05-31T12:12:40Z Berthomg 8 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 Main Page 0 1279 1693 1655 2007-06-22T14:59:32Z Poidevin 11 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[GenoretGenes]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. 3887075836996fffe047d800e964ad13a6aff1da 1695 1693 2007-06-27T13:55:32Z Wraff 5 /* Progiciels */ wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un garphical uster interface pour des analyses statistiques automatiques et des raports automatiques pour des applications de routine .. ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[GenoretGenes]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. 6e33a6cc71e40a06b3b429fa2d43784d79579c70 1696 1695 2007-06-27T13:56:20Z Wraff 5 /* Progiciels */ wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec raports automatiques pour des applications de routine .. ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[GenoretGenes]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. 43b7f6f6164a2541515b1b959790720a085cd142 1698 1696 2007-06-27T13:58:51Z Wraff 5 /* Progiciels */ wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[GenoretGenes]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. 57e9fdf7dc6c7417629e9e96e668dd4e2c6adbbc 1706 1698 2007-07-16T11:53:59Z Dkieffer 2 /* Outils programmation et Unix */ wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[GenoretGenes]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 383ee54b6e24631e3eeb28f0b1b90afc4e2497c6 1719 1706 2007-07-27T14:56:27Z Ripp 1 /* Projets */ wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 9919263c880a8d64febad8642af31a2a180a0e2e 1726 1719 2007-07-30T11:26:49Z Ripp 1 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * Où en sont nos serveurs [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] eae22d6f5e4dee6c6511b7be4aa8d5677b37c150 GenoretGenes 0 1308 1694 1422 2007-06-22T15:01:43Z Poidevin 11 wikitext text/x-wiki GenoretGenes est la base de données construite sur le projet [[Gscope]] EVImm Il centralise les informations concernant les gènes de la rétine. Cette base est maintenue par [[Laëtitia Poidevin]] voir aussi le site WikiGenoret de [http://www-genoret.u-strasbg.fr/genoret/wiki/index.php/GenoretGenes GenoretGenes] et le site web [http://www-bio3d-igbmc.u-strasbg.fr/GenoretGenes GenoretGenes] dc40eacf7909db7d71aac06829faac5e4460566c RReportGenerator 0 1342 1697 2007-06-27T13:57:37Z Wraff 5 New page: Le RReportGenerator est dispônible sur [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm] wikitext text/x-wiki Le RReportGenerator est dispônible sur [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm] a51491392d44d77b47139482ea634da96720794a 1699 1697 2007-06-27T14:02:05Z Wraff 5 wikitext text/x-wiki Le RReportGenerator est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm chez Wolfgang] bc0205deeb9f0cf9a6920420763315a75261e731 1700 1699 2007-06-27T14:04:22Z Wraff 5 wikitext text/x-wiki Le RReportGenerator est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm chez Wolfgang] 312e76ba2bb308ea29ba4bd275efe4fe07955e23 1712 1700 2007-07-27T07:59:23Z Wraff 5 wikitext text/x-wiki La transcriptomique et les puces à cellules transfectées sont devenues des outils de routine dans la recherche contre le cancer. Dû aux grandes quantités de données générées par ces méthodes de criblage à haut débit le besoin en méthodes d’analyse automatique est grandissant. La [http://www.r-project.org plate-forme statistique R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et Latex) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées. En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Le programme RReportGenerator avec tutorial et exemples en version Windows est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang] a82fe39ec4b387ad4c91c0ba9dcf1e1244eeee42 1714 1712 2007-07-27T08:06:11Z Wraff 5 wikitext text/x-wiki La transcriptomique et les puces à cellules transfectées sont devenues des outils de routine dans la recherche contre le cancer. Dû aux grandes quantités de données générées par ces méthodes de criblage à haut débit le besoin en méthodes d’analyse automatique est grandissant. La [http://www.r-project.org plate-forme statistique R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et Latex) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées. En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Le programme RReportGenerator (en version Windows) avec tutorial et exemples est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang] f2c57bd194f180b072203090e5c0a92b55483abd Java 0 1293 1705 1601 2007-07-16T08:12:12Z Dkieffer 2 /* Où trouver les fichiers pour l'execution? */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. Mais malheureusement pas encore sur les autres Star... A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star. ==sources internes== ===Lancement et synchronisation de programmes externes en multiThread à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 21abd3cfea52d812be3bc8b66e76059bb6085e01 1708 1705 2007-07-16T12:20:40Z Dkieffer 2 /* Documentation */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. Mais malheureusement pas encore sur les autres Star... A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star. ==sources internes== ===Lancement et synchronisation de programmes externes en multiThread à partir de java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw] ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 100349bd2bca8b4fa3f2ba3737d59cee7223805a Bibliothèque interne 0 1343 1707 2007-07-16T12:15:53Z Dkieffer 2 New page: Liste des livres disponibles pour le LBGI. Adressez vous à Laetitia Gonzalez pour leur disponibilité. =PHP= ==PHP 5 avancé== *Editeur : Eyrolles; *Édition : 3e édition (2 Oct 2006) ... wikitext text/x-wiki Liste des livres disponibles pour le LBGI. Adressez vous à Laetitia Gonzalez pour leur disponibilité. =PHP= ==PHP 5 avancé== *Editeur : Eyrolles; *Édition : 3e édition (2 Oct 2006) *Langue : Français *ISBN: 2212120044 =javascript= ==Javascript: The Definitive Guide== *Autheur: David Flanagan *Editeur : O'Reilly Media; *Édition : 4th (12 Fév 2006) *Collection : Classique Us *Langue : Français *ISBN: 0596000480 =java= ==The Definitive Guide To Java Swing== *Autheur: de John Zukowski *Editeur : Apress; *Édition : 3rd (Jui 2005) *Langue : Anglais *ISBN: 1590594479 ==JSP Professionnel== *Editeur : Eyrolles (7 Fév 2001) *Collection : Wrox, solutions développeurs *Langue : Français *ISBN: 2212092474 ==Spring par la pratique : Mieux développer ses applications Java/J2EE avec Spring, Hibernate, Struts, Ajax...== *Editeur : Eyrolles (28 avril 2006) *Langue : Français *ISBN: 2212117108 ==Hibernate 3.0 : Gestion optimale de la persistance dans les applications Java/J2EE== *Autheurs: Anthony Patricio, Olivier Salvatori *Editeur : Eyrolles (16 Jui 2005) *Langue : Français *ISBN: 2212116446 =R= ==Bioinformatics And Computational Biology Solutions Using R And Bioconductor== *auteurs : Robert Gentleman (Sous la direction de), Wolfgang Huber (Sous la direction de), Sandrine Dudoit (Sous la direction de) *Editeur : Springer (Août 2005) *Langue : Anglais *ISBN: 0387251464 =POO= ==Conception et Programmation orientées objet== *Autheurs: Bertrand Meyer *Editeur : Eyrolles (22 Juil 2000) *Langue : Français *ISBN: 2212091117 ==UML et les Design Patterns== *Autheur: Craig Larman *Editeur : CampusPress (22 Fév 2002) *Collection : Campus Press *Langue : Français *ISBN: 2744013013 =Database= ==PostgreSQL: The comprehensive guide to building, programming, and administering PostrgreSQL databases== *Editeur : Sams; *Édition : 2nd (1 Août 2005) *Langue : Anglais *ISBN: 0672327562 81b177f78440238b3239299a8d56ebecb7391aeb 1710 1707 2007-07-16T12:23:14Z Dkieffer 2 /* Bioinformatics And Computational Biology Solutions Using R And Bioconductor */ wikitext text/x-wiki Liste des livres disponibles pour le LBGI. Adressez vous à Laetitia Gonzalez pour leur disponibilité. =PHP= ==PHP 5 avancé== *Editeur : Eyrolles; *Édition : 3e édition (2 Oct 2006) *Langue : Français *ISBN: 2212120044 =javascript= ==Javascript: The Definitive Guide== *Autheur: David Flanagan *Editeur : O'Reilly Media; *Édition : 4th (12 Fév 2006) *Collection : Classique Us *Langue : Français *ISBN: 0596000480 =java= ==The Definitive Guide To Java Swing== *Autheur: de John Zukowski *Editeur : Apress; *Édition : 3rd (Jui 2005) *Langue : Anglais *ISBN: 1590594479 ==JSP Professionnel== *Editeur : Eyrolles (7 Fév 2001) *Collection : Wrox, solutions développeurs *Langue : Français *ISBN: 2212092474 ==Spring par la pratique : Mieux développer ses applications Java/J2EE avec Spring, Hibernate, Struts, Ajax...== *Editeur : Eyrolles (28 avril 2006) *Langue : Français *ISBN: 2212117108 ==Hibernate 3.0 : Gestion optimale de la persistance dans les applications Java/J2EE== *Autheurs: Anthony Patricio, Olivier Salvatori *Editeur : Eyrolles (16 Jui 2005) *Langue : Français *ISBN: 2212116446 =R= ==Bioinformatics And Computational Biology Solutions Using R And Bioconductor== *auteurs : Robert Gentleman, Wolfgang Huber, Sandrine Dudoit *Editeur : Springer (Août 2005) *Langue : Anglais *ISBN: 0387251464 =POO= ==Conception et Programmation orientées objet== *Autheurs: Bertrand Meyer *Editeur : Eyrolles (22 Juil 2000) *Langue : Français *ISBN: 2212091117 ==UML et les Design Patterns== *Autheur: Craig Larman *Editeur : CampusPress (22 Fév 2002) *Collection : Campus Press *Langue : Français *ISBN: 2744013013 =Database= ==PostgreSQL: The comprehensive guide to building, programming, and administering PostrgreSQL databases== *Editeur : Sams; *Édition : 2nd (1 Août 2005) *Langue : Anglais *ISBN: 0672327562 ee3cfbbba4c41412526456b7110337759b30fe35 1711 1710 2007-07-16T12:45:47Z Dkieffer 2 wikitext text/x-wiki Liste des livres disponibles pour le [[LBGI]]. Adressez vous à Laetitia Gonzalez pour leur disponibilité. =PHP= ==PHP 5 avancé== *Editeur : Eyrolles; *Édition : 3e édition (2 Oct 2006) *Langue : Français *ISBN: 2212120044 =javascript= ==Javascript: The Definitive Guide== *Autheur: David Flanagan *Editeur : O'Reilly Media; *Édition : 4th (12 Fév 2006) *Collection : Classique Us *Langue : Français *ISBN: 0596000480 =java= ==The Definitive Guide To Java Swing== *Autheur: de John Zukowski *Editeur : Apress; *Édition : 3rd (Jui 2005) *Langue : Anglais *ISBN: 1590594479 ==JSP Professionnel== *Editeur : Eyrolles (7 Fév 2001) *Collection : Wrox, solutions développeurs *Langue : Français *ISBN: 2212092474 ==Spring par la pratique : Mieux développer ses applications Java/J2EE avec Spring, Hibernate, Struts, Ajax...== *Editeur : Eyrolles (28 avril 2006) *Langue : Français *ISBN: 2212117108 ==Hibernate 3.0 : Gestion optimale de la persistance dans les applications Java/J2EE== *Autheurs: Anthony Patricio, Olivier Salvatori *Editeur : Eyrolles (16 Jui 2005) *Langue : Français *ISBN: 2212116446 =R= ==Bioinformatics And Computational Biology Solutions Using R And Bioconductor== *auteurs : Robert Gentleman, Wolfgang Huber, Sandrine Dudoit *Editeur : Springer (Août 2005) *Langue : Anglais *ISBN: 0387251464 =POO= ==Conception et Programmation orientées objet== *Autheurs: Bertrand Meyer *Editeur : Eyrolles (22 Juil 2000) *Langue : Français *ISBN: 2212091117 ==UML et les Design Patterns== *Autheur: Craig Larman *Editeur : CampusPress (22 Fév 2002) *Collection : Campus Press *Langue : Français *ISBN: 2744013013 =Database= ==PostgreSQL: The comprehensive guide to building, programming, and administering PostrgreSQL databases== *Editeur : Sams; *Édition : 2nd (1 Août 2005) *Langue : Anglais *ISBN: 0672327562 642184a598bd9544117a59fb6c75e5e97b9f76af R 0 1320 1709 1669 2007-07-16T12:22:38Z Dkieffer 2 /* Documentation et Tutorials */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR, Mai 2007).<br> L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger]].<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ a5f7d58d1b8b8a155ff5941ad5194caaf97cc058 Wolfgang Raffelsberger 0 1339 1713 1667 2007-07-27T08:03:20Z Wraff 5 wikitext text/x-wiki Bonjour, voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff] Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]. e-mail : wolfgang.raffelsberger@igbmc.u-strasbg.fr 63a87c55ece103d21370c87c2994607143bf9cbf 1715 1713 2007-07-27T08:19:21Z Wraff 5 wikitext text/x-wiki Bonjour, voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff] Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]. e-mail : [mailto:wolfgang.raffelsberger@igbmc.u-strasbg.fr wolfgang.raffelsberger@igbmc.u-strasbg.fr] 2e99d0f0c2bebd552bc47b47dee8a066ea9e25b1 RetinoBase 0 1344 1716 2007-07-27T14:47:14Z Ripp 1 New page: RETINOBASE is a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. Retinobase uses open-source tools... wikitext text/x-wiki RETINOBASE is a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. Retinobase uses open-source tools. The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. DATASETS IN RETINOBASE Retinobase stores the expression profiles of genes from a microarray experiment. The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans. Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to Retinobase using SQL scripts via pgAdminIII. DATA PRE-PROCESSING Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase. The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase. All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors. bedc29fc61e1985901d9cd541063c2dbb869c0c3 1717 1716 2007-07-27T14:53:21Z Ripp 1 wikitext text/x-wiki go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy] ==What is RetinoBase== RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. ==DATASETS IN RETINOBASE== Retinobase stores the expression profiles of genes from a microarray experiment. The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans. Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to Retinobase using SQL scripts via pgAdminIII. ==DATA PRE-PROCESSING== Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase. The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase. All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors. ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. Retinobase uses open-source tools. 45b3ec906a8cbca3f7b8c0903693313aca97d0bd 1718 1717 2007-07-27T14:55:17Z Ripp 1 wikitext text/x-wiki go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy] ==What is RetinoBase== RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. ==Datasets in RetinoBase== Retinobase stores the expression profiles of genes from a microarray experiment. The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans. Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII. ==Data pre-processing== Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase. The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase. All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors. ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. Retinobase uses open-source tools. 88d06a6c0a36d8eb9ac865989258ab179ca9dcbd 1720 1718 2007-07-27T15:03:01Z Ravi 12 wikitext text/x-wiki go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy] ==What is RetinoBase== RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. ==Datasets in RetinoBase== Retinobase stores the expression profiles of genes from a microarray experiment. The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans. Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII. ==Data pre-processing== Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase. The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase. All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors. ==User Manual== * User manual .doc file * RetinoBase Website ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. Retinobase uses open-source tools. ffb02fa7d99bedc8fa127f233937410b3f325b71 1721 1720 2007-07-27T15:03:50Z Ravi 12 wikitext text/x-wiki go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy] ==What is RetinoBase== RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. ==Datasets in RetinoBase== Retinobase stores the expression profiles of genes from a microarray experiment. The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans. Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII. ==Data pre-processing== Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase. The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase. All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors. ==User Manual== * User manual .doc file * [[RetinoBase Website]] ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. Retinobase uses open-source tools. 06ad88e40054745f03d8d9934119f2e89205f2a4 1728 1721 2007-07-30T16:41:30Z Ripp 1 wikitext text/x-wiki go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy] ==What is RetinoBase== RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. ==RetinoBase can be accessed through a Fed instance== [[Fed]] for RetinBase is now available. It allows the management uf users and datafiles with access rights ==Datasets in RetinoBase== Retinobase stores the expression profiles of genes from a microarray experiment. The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans. Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII. ==Data pre-processing== Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase. The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase. All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors. ==User Manual== * User manual .doc file * [[RetinoBase Website]] ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. Retinobase uses open-source tools. 5dbc08a744f6fd6f8f47ab63eddcdb93ff99cde3 RetinoBase Website 0 1345 1722 2007-07-27T15:04:55Z Ravi 12 New page: This explains how to use the RetinoBase Website ==What is available== wikitext text/x-wiki This explains how to use the RetinoBase Website ==What is available== b00f2e7eb51676600da2921b50728dc0a0210631 1723 1722 2007-07-27T15:07:44Z Ravi 12 wikitext text/x-wiki This explains how to use the RetinoBase Website ==What is available== PROBESET : This link provides the user with gene details. click on probeset takes user to new page where the user can enter either one Genename, Genesymbol, Affymetrix probeset ID or multiple Genenames, Genesymbols or Affymetrix probeset id separated by space inorder to get the Gene information EXPERIMENT: This link provides the user with all the experiment details that are present in the RETINOBASE. Further a link is provided to pubmed to those experiments whose data is derived from published articles SAMPLE: This link provides the user with all the sample details that are present in the RETINOBASE. If the user prefers to findout all the samples present in particular experment he click on Sample Query option and then enter the experiment id QUERY: This link provides the user to access the data present in the RETINOBASE. The user can either query data using Data Query, Ratio Query, Cluster Query and Ortholog Query option Mail to Raymond Ripp 25244b73eb8d3de6891de11cbe51b5459db7a5db 1724 1723 2007-07-27T15:08:18Z Ravi 12 wikitext text/x-wiki This explains how to use the RetinoBase Website ==What is available== PROBESET : This link provides the user with gene details. click on probeset takes user to new page where the user can enter either one Genename, Genesymbol, Affymetrix probeset ID or multiple Genenames, Genesymbols or Affymetrix probeset id separated by space inorder to get the Gene information EXPERIMENT: This link provides the user with all the experiment details that are present in the RETINOBASE. Further a link is provided to pubmed to those experiments whose data is derived from published articles SAMPLE: This link provides the user with all the sample details that are present in the RETINOBASE. If the user prefers to findout all the samples present in particular experment he click on Sample Query option and then enter the experiment id QUERY: This link provides the user to access the data present in the RETINOBASE. The user can either query data using Data Query, Ratio Query, Cluster Query and Ortholog Query option 64fe7d620b6a0cef13c0fcaf788c6c0ad2493efa 1725 1724 2007-07-27T15:09:09Z Ravi 12 wikitext text/x-wiki This explains how to use the [[RetinoBase]] Website ==What is available== PROBESET : This link provides the user with gene details. click on probeset takes user to new page where the user can enter either one Genename, Genesymbol, Affymetrix probeset ID or multiple Genenames, Genesymbols or Affymetrix probeset id separated by space inorder to get the Gene information EXPERIMENT: This link provides the user with all the experiment details that are present in the RETINOBASE. Further a link is provided to pubmed to those experiments whose data is derived from published articles SAMPLE: This link provides the user with all the sample details that are present in the RETINOBASE. If the user prefers to findout all the samples present in particular experment he click on Sample Query option and then enter the experiment id QUERY: This link provides the user to access the data present in the RETINOBASE. The user can either query data using Data Query, Ratio Query, Cluster Query and Ortholog Query option 4bd55905dcb82fcc7534a149c02ab7defae71ffe Architecture of Gscope 0 1328 1727 1560 2007-07-30T11:29:09Z Ripp 1 wikitext text/x-wiki The Architecture of Gscope is ... not perfect. To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. 58ae92f47720be3766085e4e053a9c378e5eb216 Fed 0 1286 1729 1614 2007-07-30T16:46:24Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PostgreSQL Relational Database * a PHP base website using Html and Javascript It allows to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. This data are then processed to be integration in the Relational Database. ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] * [[GenoretGenes]] (very soon) * [[LBGI]] (the BioInformatic group) (very soon) 1644ed33f571b6d884153db6aabf480bb0919971 Fed 0 1286 1730 1729 2007-07-30T16:48:13Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PostgreSQL Relational Database * a PHP base website using Html and Javascript It allows to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. This data are then processed to be integration in the Relational Database. ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[LBGI]] (the BioInformatic group) (very soon) 1a0c042ba3e1551172a6a9263ca6c62b02da6523 1731 1730 2007-07-30T16:56:36Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. This data are then processed to be integration in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[LBGI]] (the BioInformatic group) (very soon) f1a364827c8446c08a10fa154bbb0020e71e683a 1732 1731 2007-07-30T17:02:12Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then sspecially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[LBGI]] (the BioInformatic group) (very soon) 3be992e0abe44b4f79c986a4fdbac8eed1d27241 FedLord 0 1332 1733 1591 2007-07-30T17:20:11Z Ripp 1 wikitext text/x-wiki FedLord is the unique database centralising the [[Fed]] users of a federeation of Fed databases. If all people are centralised in this database it will be possible to share the access rights within several Fed servers. ==Actuellement== Quand on aaura tout réécrit il y aura un vrai FedLord ... qui gère touts. Actuellement c'est Genoret Database qui joue le rôrl de FedLord ... Le "petit" détail qui reste à règler est de pouvoir mettre les pk_people en int4 et non pas serial. Cela nous oblige à prévoir plein de people pour pouvoir les intégrer d'une base à l'autre avec le même pk. Guillaume n'y croit pas mais ça va marcher... Peut être qu'en créant ddirectement les people en int4 dans les nouveaux projets. 95fd459e798caf47cb41ce73f4393a74fb657cf2 Unix 0 1312 1734 1679 2007-08-01T12:47:53Z Dkieffer 2 /* commandes relatifs à l'environnement multi-utilisateurs */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |wich nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |<nowiki>commande_1 | commande_2 </nowiki> |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |id |Donne des informations sur l'identité de l'utilisateur courant. |- |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =Script bash= [http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite] =sources= Initiation à la bioinformatique O'Reilly 03049bd63611526489443731ea4155d1c4a2547c 1735 1734 2007-08-02T08:11:24Z Dkieffer 2 /* Manipulation des fichiers et des répertoires */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |which nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |<nowiki>commande_1 | commande_2 </nowiki> |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |id |Donne des informations sur l'identité de l'utilisateur courant. |- |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =Script bash= [http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite] =sources= Initiation à la bioinformatique O'Reilly 4dae1ee915e3802dd94658589d407f69a2d5bd11 Java 0 1293 1736 1708 2007-08-03T12:14:37Z Dkieffer 2 /* sources internes */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. Mais malheureusement pas encore sur les autres Star... A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star. ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 2e25820402a32c60d183b8d3e63f16977463d273 1737 1736 2007-08-03T12:20:05Z Dkieffer 2 /* Librairies internes */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[alnitak]] et [[kilida]] Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. Mais malheureusement pas encore sur les autres Star... A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star. ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] e10e3653800348a6d53acad8beb7f0408ffed2b5 1741 1737 2007-08-10T08:58:44Z Dkieffer 2 /* Où trouver les fichiers pour l'execution? */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[Kilida et Alnitak]] Installé sur [[Star | star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. Mais malheureusement pas encore sur les autres Star... A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star. ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 3d0fcfb39641121e26583ec862a5c95d441f713e 1747 1741 2007-08-22T09:23:55Z Dkieffer 2 /* Librairies internes */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[Kilida et Alnitak]] Installé sur [[Star | star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. Mais malheureusement pas encore sur les autres Star... A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star. ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] f8a57df7529bbd477789fbdd0780c4b1b606a0b4 1748 1747 2007-09-13T08:04:43Z Dkieffer 2 /* Librairies */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.5 sur [[Kilida et Alnitak]] Installé sur [[Star | star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk. Mais malheureusement pas encore sur les autres Star... A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star. ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 499e690fce0952025c8c811e8f9a47520cca7d43 Main Page 0 1279 1738 1726 2007-08-10T08:38:24Z Dkieffer 2 /* Serveur et données */ wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 64e6010f161b7cd74ee631ae5245e2dab6356518 1744 1738 2007-08-20T15:38:24Z Berthomg 8 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives) ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] bf178b92face795c814da5b410cee543e7247729 1764 1744 2007-09-13T12:01:48Z Ripp 1 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI |(Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] f683de8b5485c6b2444d9e81b6855a275498d723 1765 1764 2007-09-13T12:02:08Z Ripp 1 wikitext text/x-wiki Bonjour, vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 6c19fb04769468710db0eeff3721b87588de2973 1766 1765 2007-09-13T12:03:30Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[Macsims]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 77bb18c3d7f254c567ea1b79f3242ec9d14947fb 1778 1766 2007-09-13T12:12:16Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 5ad2c65e39fbf9136174f3bb25f36d08f84a7133 1781 1778 2007-09-13T12:16:24Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[Magos]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] b6993113d77858e8c961f9cd88613b000039e0a8 Star 0 1346 1739 2007-08-10T08:50:32Z Dkieffer 2 New page: Les Stars sont nos machines de calcul. Star 3,7 et 8 sont sur Fedora 7 Star 5 sur Fedora 5 Star 4 et 6 sur Red hat 4 les dossiers /usr/local et /home sont communs à toutes les machin... wikitext text/x-wiki Les Stars sont nos machines de calcul. Star 3,7 et 8 sont sur Fedora 7 Star 5 sur Fedora 5 Star 4 et 6 sur Red hat 4 les dossiers /usr/local et /home sont communs à toutes les machines. [[R]] tourne spécifiquement sur star5. [[java]] 1.5 est installé sur star6. d23f2fc6dbd93441cc943ffecd3028e83e6ab2b8 R 0 1320 1740 1709 2007-08-10T08:54:09Z Dkieffer 2 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR, Mai 2007).<br> L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger]].<br> Pour lancer R sur [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 3b40ea879f54b3839dbaeb0d83b15d03a7f60ae7 1758 1740 2007-09-13T10:17:11Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >100 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs en Fedora comme [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 301b69c91db0d9d4d1f3923f6f9ae895a4818377 1759 1758 2007-09-13T10:51:28Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://alnitak.u-strasbg.fr/wikili/index.php/JRI JRI (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki ] *[http://alnitak.u-strasbg.fr/wikili/index.php/RReportGenerator RReportGenerator : un GUI pour des applications de routine utilisant R (sur ce Wiki)] =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ ec9a782f91ef2f85447e9a855dcecc22125174ca 1763 1759 2007-09-13T11:32:48Z Dkieffer 2 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 (WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] <br> En tapant: /usr/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies utiles= *[[rjava]] pour appeller du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://alnitak.u-strasbg.fr/wikili/index.php/JRI JRI (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki ] *[http://alnitak.u-strasbg.fr/wikili/index.php/RReportGenerator RReportGenerator : un GUI pour des applications de routine utilisant R (sur ce Wiki)] =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 8f14e662e532e05adaf688b87d3e04b37a8bd34b 1769 1763 2007-09-13T12:06:11Z Dkieffer 2 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies utiles= *[[rjava]] pour appeller du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://alnitak.u-strasbg.fr/wikili/index.php/JRI JRI (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki ] *[http://alnitak.u-strasbg.fr/wikili/index.php/RReportGenerator RReportGenerator : un GUI pour des applications de routine utilisant R (sur ce Wiki)] =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ c08f2316c9debf788054b7c0845d40ffdf619339 1777 1769 2007-09-13T12:11:38Z Dkieffer 2 /* Librairies utiles */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies utiles= *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://alnitak.u-strasbg.fr/wikili/index.php/JRI JRI (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki ] *[http://alnitak.u-strasbg.fr/wikili/index.php/RReportGenerator RReportGenerator : un GUI pour des applications de routine utilisant R (sur ce Wiki)] =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ a17f811d2cb0039c4e52f8182334aa62916a4b54 RReportGenerator 0 1342 1742 1714 2007-08-10T09:24:10Z Wraff 5 wikitext text/x-wiki La [http://www.r-project.org plate-forme statistique R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées. En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Le programme RReportGenerator (en version Windows) avec tutorial et exemples est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang] 989aee6a08d87122955d99671c5dbd66e9cf7c7b 1760 1742 2007-09-13T10:54:17Z Wraff 5 wikitext text/x-wiki La [http://www.r-project.org plate-forme statistique R] (voir aussi [http://alnitak.u-strasbg.fr/wikili/index.php/R R chez LBGI]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées. En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Le programme RReportGenerator (en version Windows) avec tutorial et exemples est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang] d18711e88177be17b789601dbd6fa8ee2cf87da8 RetinoBase 0 1344 1743 1728 2007-08-18T12:37:08Z Ripp 1 wikitext text/x-wiki go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy] ==What is RetinoBase== RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. ==RetinoBase can be accessed through a Fed instance== [[Fed]] for RetinBase is now available. It allows the management uf users and datafiles with access rights ==Datasets in RetinoBase== Retinobase stores the expression profiles of genes from a microarray experiment. The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans. Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII. ==Data pre-processing== Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase. The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase. All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors. ==User Manual== * User manual .doc file * [[RetinoBase Website]] ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. Retinobase uses open-source tools. ==External Links== * [http://www-genoret.u-strasbg.fr/genoret Genoret Database] * [http://www-genoret.u-strasbg.fr/GenoretGenes GenoretGenes] 99803b3619b6aa091b16e32566d02ca8bfa8fb59 Installation PHP 0 1347 1745 2007-08-20T15:48:35Z Berthomg 8 New page: # Installation PDO pour PHP sur Ubuntu ## installation php5-dev ## installation postgresql-server-dev-8.1 ## find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or whereve... wikitext text/x-wiki # Installation PDO pour PHP sur Ubuntu ## installation php5-dev ## installation postgresql-server-dev-8.1 ## find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or wherever yours is located) and REMOVE this snippet from that function: if test "x$is_it_shared" = "x" && test "x$3" != "xtrue"; then AC_MSG_ERROR([ You've configured extension $1, which depends on extension $2, but you've either not enabled $2, or have disabled it. ]) fi ## commande: pecl install pdo_pgsql ## dans php.ini de cli et apache2: extension=pdo.so et extension=pdo_pgsql.so f9baa4314f0db0fdd223a2e051a05c72ee101753 1746 1745 2007-08-21T07:11:56Z Berthomg 8 wikitext text/x-wiki # Installation PDO for PHP5 on Ubuntu ## installation php5-dev ## installation postgresql-server-dev-8.1 ## find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or wherever yours is located) and REMOVE this snippet from that function: <pre> if test "x$is_it_shared" = "x" && test "x$3" != "xtrue"; then AC_MSG_ERROR([ You've configured extension $1, which depends on extension $2, but you've either not enabled $2, or have disabled it. ]) fi </pre> ## command: pecl install pdo_pgsql ## In php.ini for cli and apache2: extension=pdo.so and extension=pdo_pgsql.so 7544e5214020d341b024bba479227913cec6eebe LBGI 0 1280 1749 1635 2007-09-13T08:42:42Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : i) a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases; ii) a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the PipeAlign cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology (MAO) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System (MACSIMS), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation (vALId), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling (MAGOS) and promoter analysis (PromAn). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, BAliBASE3, which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The BIRD (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the BIRDQL Engine Query via HTTP service. # The Retinobase is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-Genoret database is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences (ICDS) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ===Projects=== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 9d1b352348a7605404285504c7ecf2db9b94636d 1750 1749 2007-09-13T08:44:12Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the PipeAlign cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology (MAO) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System (MACSIMS), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation (vALId), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling (MAGOS) and promoter analysis (PromAn). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, BAliBASE3, which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The BIRD (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the BIRDQL Engine Query via HTTP service. # The Retinobase is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-Genoret database is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences (ICDS) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ===Projects=== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. f01dcbb3146c64361ccefb804ff196de9f2e2f31 1751 1750 2007-09-13T08:45:57Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the PipeAlign cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology (MAO) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System (MACSIMS), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation (vALId), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling (MAGOS) and promoter analysis (PromAn). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, BAliBASE3, which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The BIRD (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the BIRDQL Engine Query via HTTP service. # The Retinobase is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-Genoret database is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences (ICDS) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. cc893b3aa520bf180c1481f7234d15d03d49a302 1752 1751 2007-09-13T08:48:18Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the BIRD-QL Engine Query via HTTP service. # The Retinobase is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-Genoret database is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences (ICDS) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 8f7bb31f31ea70bd88e8414a782ba3f094966434 1753 1752 2007-09-13T08:50:16Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 2d669e5416d4fa0d951ba902527b65f052641000 1754 1753 2007-09-13T08:53:52Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 610b62b0a4c58c5adb7225eb53d76ad6dee99551 1770 1754 2007-09-13T12:08:32Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[Magos|MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 39958867c51cc5710f3bae200010e91931765279 JRI 0 1348 1755 2007-09-13T09:21:47Z Dkieffer 2 New page: Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et con... wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R. Téléchargez l'archive selon votre version de R. *[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2] *[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3] *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ private static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } =liens= [http://www.rforge.net/JRI/ Le site du projet] d910e9bf4bbaadb27e7b54907d27b2b1fb8d4d7a 1756 1755 2007-09-13T09:30:06Z Dkieffer 2 /* Exemples */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R. Téléchargez l'archive selon votre version de R. *[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2] *[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3] *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R to 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaireAlaCon",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaireAlaCon,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] 2f8eb324b9d3014026122cc189c45a4b6e76035b 1757 1756 2007-09-13T09:38:47Z Dkieffer 2 wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R. Téléchargez l'archive selon votre version de R. *[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2] *[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3] *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R to 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaireAlaCon",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaireAlaCon,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] f215b4d9cbf0942ae3f35753678651f5d464e147 1761 1757 2007-09-13T11:15:25Z Dkieffer 2 /* Passer une matrice à R depuis Java */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R. Téléchargez l'archive selon votre version de R. *[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2] *[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3] *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R to 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] 06ded3aacde6ba911df780e658d0eae003fa41f2 1762 1761 2007-09-13T11:22:09Z Dkieffer 2 wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R. Téléchargez l'archive selon votre version de R. *[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2] *[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3] *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R to 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] =Voir aussi= *[[Java]] *[[R]] *[[rjava]] 820c66d5265448e34ee34363737e4f6d75df9d5d 1776 1762 2007-09-13T12:11:11Z Dkieffer 2 /* Voir aussi */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R. Téléchargez l'archive selon votre version de R. *[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2] *[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3] *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R to 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 45ea845d4a2a1464f69e7f72116907a31bb7f236 RJava 0 1349 1767 2007-09-13T12:04:03Z Dkieffer 2 New page: Rjava est une librairie R pour communiquer avec des objets Java Elle est installé sur alnitak dans la version 2.5 de R (/usr/local/bin/R) wikitext text/x-wiki Rjava est une librairie R pour communiquer avec des objets Java Elle est installé sur alnitak dans la version 2.5 de R (/usr/local/bin/R) 13f2f3251b9fe3ec897120f7cba4658fd7f35e66 1771 1767 2007-09-13T12:09:13Z Dkieffer 2 wikitext text/x-wiki Rjava est une librairie R pour communiquer avec des objets Java Elle est installé sur alnitak dans la version 2.5 de R (/usr/local/bin/R) =liens= [http://www.rforge.net/rJava/ site officiel] [http://wiki.r-project.org/rwiki/doku.php?id=packages:cran:rjava wiki de rJava] =Voir Aussi= *[[JRI]] *[[R]] *[[java]] a90cb53721a0f6d3d50cfec6341a35d835d3b638 1772 1771 2007-09-13T12:10:23Z Dkieffer 2 [[Rjava]] moved to [[RJava]]: Erreur syntaxique wikitext text/x-wiki Rjava est une librairie R pour communiquer avec des objets Java Elle est installé sur alnitak dans la version 2.5 de R (/usr/local/bin/R) =liens= [http://www.rforge.net/rJava/ site officiel] [http://wiki.r-project.org/rwiki/doku.php?id=packages:cran:rjava wiki de rJava] =Voir Aussi= *[[JRI]] *[[R]] *[[java]] a90cb53721a0f6d3d50cfec6341a35d835d3b638 Rjava 0 1350 1773 2007-09-13T12:10:23Z Dkieffer 2 [[Rjava]] moved to [[RJava]]: Erreur syntaxique wikitext text/x-wiki #REDIRECT [[RJava]] 1c82d40860631370d23862859905f33d3b3d9c25 MACSIMS 0 1351 1775 2007-09-13T12:11:04Z Ripp 1 New page: '''MACSIMS''' '''M'''ultiple '''A'''lignment of '''C'''omplete '''S'''equences '''I'''nformation '''M'''anagment '''S'''ystem MACSIMS is a new program for the integration of structural an... wikitext text/x-wiki '''MACSIMS''' '''M'''ultiple '''A'''lignment of '''C'''omplete '''S'''equences '''I'''nformation '''M'''anagment '''S'''ystem MACSIMS is a new program for the integration of structural and functional information in the context of a multiple alignment of a protein family. ===Output File=== The XML output is based on this [http://www-bio3d-igbmc.u-strasbg.fr/Spine/public/xml/macsim.dtd dtd]. f7385fe924e95768782ebeff01d182577215b65e Logiciels 0 1319 1779 1535 2007-09-13T12:12:50Z Ripp 1 wikitext text/x-wiki =Logiciels LBGI= *[[Gscope]] *[[Gscope Clonage]] *[[CADO4MI]] *[[MACSIMS]] *[[Bird]] =Autres Logiciels= *Statistique: **[[R]] *Visualisation **[[Graphviz]] 8aaf5b094aa590efaeef60043f6a5be667e8f2df MAGOS 0 1352 1782 2007-09-13T12:17:55Z Ripp 1 New page: MAGOS is a web server allowing automated protein modelling coupled to the creation of a hierarchical and annotated Multiple Alignment of Complete Sequences (MACS). MAGOS is designed for an... wikitext text/x-wiki MAGOS is a web server allowing automated protein modelling coupled to the creation of a hierarchical and annotated Multiple Alignment of Complete Sequences (MACS). MAGOS is designed for an interactive approach of structural information within the framework of the evolutionary relevance of mined and predicted sequence information. 7ce9266f8ba7fc5dce3f6aa5d91c48cd1b940212 LBGI 0 1280 1783 1770 2007-09-13T12:19:09Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 610b62b0a4c58c5adb7225eb53d76ad6dee99551 1792 1783 2007-09-21T15:41:56Z Wraff 5 /* Bioinformatics : development of software and databases */ wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([http://www.meb.ki.se/~yudpaw/ Flush], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 605e29b97d712fc80e2a77a1449230c1381d46f1 1815 1792 2007-09-27T17:03:32Z Wraff 5 /* Bioinformatics : development of software and databases */ wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 4e51f60ad39319d8d5a98dd725448ea2f1f0f561 Main Page 0 1279 1784 1781 2007-09-13T13:27:13Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[Bird]] ... Hoan est disponible ! * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] bdc7c507788785bc3cfb4570e79f3398a8624d4b 1785 1784 2007-09-13T13:45:01Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 58243200aee203ed4556e257f0990ac6a2483584 1802 1785 2007-09-27T10:57:22Z Wraff 5 /* Progiciels */ wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[cluspack]] ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] b631e4a051f460f06ac4dfe89e05929f89a99947 1807 1802 2007-09-27T14:53:12Z Wraff 5 /* Progiciels */ wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Projets== * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 58243200aee203ed4556e257f0990ac6a2483584 Logiciels 0 1319 1786 1779 2007-09-13T13:47:16Z Ripp 1 wikitext text/x-wiki =Logiciels LBGI= *[[Gscope]] *[[Gscope Clonage]] *[[CADO4MI]] *[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System *[[BIRD]] Biological Integration and Retrieval Data =Autres Logiciels= *Statistique: **[[R]] *Visualisation **[[Graphviz]] becc8bb7c6e46addf729a4b6dd5a774256fba386 1805 1786 2007-09-27T11:37:01Z Wraff 5 wikitext text/x-wiki =Logiciels LBGI= *[[Gscope]] *[[Gscope Clonage]] *[[CADO4MI]] *[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System *[[BIRD]] Biological Integration and Retrieval Data *[[cluspack]] clustering tools =Autres Logiciels= *Statistique: **[[R]] *Visualisation **[[Graphviz]] 595a4ef7cd9d52d0c28c4c9d7fe16e8f01a51883 BIRD 0 1313 1787 1457 2007-09-13T13:50:21Z Ripp 1 wikitext text/x-wiki ==BIRD== Le [[Bird Website|site web]] de Hoan ==Gscope utilise BIRD== Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 3568b4b199ef89471f2e5546ad7db3b6504a0e8b 1830 1787 2007-10-12T06:22:58Z Ripp 1 wikitext text/x-wiki ==BIRD== Le [[Bird Website|site web]] de Hoan Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird proc BirdFromQueryText {Texte {OutFile ""} {BirdUrl ""}} proc BirdFromQueryFile {Fichier {OutFile ""} {BirdUrl ""}} '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 778ec2c190db8c14005afe6e7499c8249edc0fbb 1831 1830 2007-10-12T06:23:47Z Ripp 1 wikitext text/x-wiki ==BIRD== Le [[Bird Website|site web]] de Hoan Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird proc BirdFromQueryText {Texte {OutFile ""} {BirdUrl ""}} proc BirdFromQueryFile {Fichier {OutFile ""} {BirdUrl ""}} '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 60d43e5c3dd142ba02905a3dc9301128408e2331 1832 1831 2007-10-12T06:24:12Z Ripp 1 wikitext text/x-wiki ==BIRD== Le [[Bird Website|site web]] de Hoan Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird proc BirdFromQueryText {Texte {OutFile ""} {BirdUrl ""}} proc BirdFromQueryFile {Fichier {OutFile ""} {BirdUrl ""}} '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 90a8065cb975187003c187997cc101bf68db9919 Oue 0 1315 1788 1469 2007-09-14T08:31:11Z Ripp 1 wikitext text/x-wiki '''oue''' la commande magique sous Unix qui dit '''où e'''st dans [[Gscope]] les mots qui suivent. * '''oue''' blastppourtous * '''oue''' latotale * '''oue''' dom parse * '''oue''' proc machin en fait les mots qui suivent '''oue''' sont concaténés avec un blanc entre. * '''oue blast | gr proc''' récupère toutes les proc commençant par blast 8eb949d16b4cc7f2a4edd8f128d3a3835261e95c JRI 0 1348 1789 1776 2007-09-17T13:37:09Z Dkieffer 2 /* Passer une matrice à R depuis Java */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R. Téléchargez l'archive selon votre version de R. *[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2] *[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3] *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 80a93d228d594398cf42d4b3f24f3b793731092d 1793 1789 2007-09-24T12:06:14Z Dkieffer 2 /* Installation */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R. Téléchargez l'archive. *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] bb95d39cc8655ef981f5bb3e17589b8cdd6dd8d1 1795 1793 2007-09-25T09:09:11Z Dkieffer 2 /* Installation */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] af2ae9630e4c56e47d2cff7260619a39790742ec 1796 1795 2007-09-25T09:10:48Z Dkieffer 2 /* Les variables d'environnements */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] a5c1e0127f14525568f9b1d07946ed378ff29f56 1797 1796 2007-09-25T09:11:25Z Dkieffer 2 /* Les variables java */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 9183096962bfcdd66389a24a03a61f9a9080e0aa 1798 1797 2007-09-25T09:21:16Z Dkieffer 2 /* Exemples */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Script de démarage de mon programme Java== #!/bin/sh # #Var environment # R_HOME=/usr/lib/R export R_HOME R_SHARE_DIR=/usr/share/R/share export R_SHARE_DIR R_INCLUDE_DIR=/usr/share/R/include export R_INCLUDE_DIR R_DOC_DIR=/usr/share/R/doc export R_DOC_DIR LD_LIBRARY_PATH=usr/lib/R/lib:/usr/lib/R/bin export LD_LIBRARY_PATH # #java commande # java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar" ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 13fdd42ba6a3378d17ba3ee3f484bafc2cd06cb3 1800 1798 2007-09-26T12:34:06Z Dkieffer 2 /* liens */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Script de démarage de mon programme Java== #!/bin/sh # #Var environment # R_HOME=/usr/lib/R export R_HOME R_SHARE_DIR=/usr/share/R/share export R_SHARE_DIR R_INCLUDE_DIR=/usr/share/R/include export R_INCLUDE_DIR R_DOC_DIR=/usr/share/R/doc export R_DOC_DIR LD_LIBRARY_PATH=usr/lib/R/lib:/usr/lib/R/bin export LD_LIBRARY_PATH # #java commande # java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar" ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] [http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 3f088f50b2cfdc590503184c24a2055ecd2e3d1d 1801 1800 2007-09-27T07:31:37Z Dkieffer 2 /* Script de démarage de mon programme Java */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Script de démarage de mon programme Java== #!/bin/sh # #Var environment # R_HOME=/usr/lib/R export R_HOME R_SHARE_DIR=/usr/share/R/share export R_SHARE_DIR R_INCLUDE_DIR=/usr/share/R/include export R_INCLUDE_DIR R_DOC_DIR=/usr/share/R/doc export R_DOC_DIR LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin export LD_LIBRARY_PATH # #java commande # java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar" ==Se connecter a R== /** connect to a new instance of R. * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] [http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 0c4d9e8d7da1ac48260abc45c6900bf88db457b9 RReportGenerator 0 1342 1790 1760 2007-09-21T15:21:50Z Wraff 5 wikitext text/x-wiki La [http://www.r-project.org plate-forme statistique R] (voir aussi [[R]] chez LBGI]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RRG.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées. En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Le programme RReportGenerator (en version Windows et Linux) avec tutorial et exemples est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang] 492909f1d4db2a5b3c825eb1c1209ed16be9c0ce R 0 1320 1791 1777 2007-09-21T15:25:30Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies utiles= *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki) =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 66220dbf280c48dee56a1f9367e8823b8145c7ce 1809 1791 2007-09-27T15:12:13Z Wraff 5 /* Librairies utiles */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = ==Librairies développés en collaboration avec le LBGI== [Flush] ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki) =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 80230340c3f2c70fa83e8d3ddc69b5a34e567030 1810 1809 2007-09-27T15:13:08Z Wraff 5 /* Librairies développés en collaboration avec le LBGI */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = ==Librairies développés en collaboration avec le LBGI== [[Flush]] ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki) =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 6da483b6ae4948a96c3cca934f984903a25587f0 1813 1810 2007-09-27T17:01:32Z Wraff 5 /* Librairies développés en collaboration avec le LBGI */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = ==Librairies développés en collaboration avec le LBGI== *[[Flush]] ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki) =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 74bd2ba23fa547dfcf1358711e9ec6d5725036ae 1814 1813 2007-09-27T17:02:19Z Wraff 5 /* Librairies développés en collaboration avec le LBGI */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = ==Librairies développées en collaboration avec le LBGI== *[[Flush]] ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki) =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 77d3557b89454997061fff57d95691095416ffee 1817 1814 2007-09-28T12:28:30Z Wraff 5 /* Librairies */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR, Sept 2007).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. ==Librairies développées en collaboration avec le LBGI== *[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki) =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 55ef14beac5f519c1b26829e3934e09340538b20 1818 1817 2007-09-28T12:31:33Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. ==Librairies développées en collaboration avec le LBGI== *[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki) =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 47a29d7403531683f272f47f4223d53f94e642a0 1819 1818 2007-09-28T12:32:42Z Wraff 5 /* Liens */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. ==Librairies développées en collaboration avec le LBGI== *[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 47d8bdbac154064679f66e01e2a83485621ebc4e 1821 1819 2007-10-01T08:25:04Z Wraff 5 /* Liens */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. ==Librairies développées en collaboration avec le LBGI== *[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ f1fd0c2057985cb74d16fdb982eeea33aa64fb55 Java 0 1293 1794 1748 2007-09-24T12:16:45Z Dkieffer 2 /* Où trouver les fichiers pour l'execution? */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]] A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java . ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] a05327ac3384d306f44d94ab905cfca8d760d2b0 RJava 0 1349 1799 1772 2007-09-25T09:26:36Z Dkieffer 2 wikitext text/x-wiki Rjava est une librairie R pour communiquer avec des objets Java =liens= [http://www.rforge.net/rJava/ site officiel] [http://wiki.r-project.org/rwiki/doku.php?id=packages:cran:rjava wiki de rJava] =Voir Aussi= *[[JRI]] *[[R]] *[[java]] 80cb9e2d1dfc406ad19903e5d9d8ed1877da92a5 Cluspack 0 1353 1803 2007-09-27T11:08:05Z Wraff 5 New page: Cluspack permet de lancer un clustering en k-means ou en mixture-models Input format: Des données doivent commencer avec une ligne indiquant le nombre des lignes et des colonnes. La prem... wikitext text/x-wiki Cluspack permet de lancer un clustering en k-means ou en mixture-models Input format: Des données doivent commencer avec une ligne indiquant le nombre des lignes et des colonnes. La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin) Utilisation: pour utiliser le GUI crée par Adeline et Nicolas setcluspack cluspackX Il existe aussi une variante de clustering itérative en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl myDataForClustering.txt kmeans 10 Attention : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !! d16f9c136222c5b387debfe22a703a4e54ad96eb 1804 1803 2007-09-27T11:11:10Z Wraff 5 wikitext text/x-wiki Cluspack permet de lancer un clustering en k-means ou en mixture-models '''Input format''': Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin) '''Utilisation''' : pour utiliser le GUI crée par Adeline et Nicolas : setcluspack cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl myDataForClustering.txt kmeans 10 Attention : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !! 72d8047bb359a1e72f7f13e0b513e35843c21c5d 1806 1804 2007-09-27T11:46:35Z Wraff 5 wikitext text/x-wiki Cluspack permet de lancer un clustering en k-means ou en mixture-models '''Input format''': Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin) '''Utilisation''' : en ligne de commande (avec tous arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 pour utiliser le GUI crée par Adeline et Nicolas : setcluspack cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 Attention : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !! 4709735aa00f754d920df69f34efa3aa8ca7f33c 1808 1806 2007-09-27T14:54:31Z Wraff 5 wikitext text/x-wiki Cluspack permet de lancer un clustering en k-means ou en mixture-models '''Input format''': Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin) '''Utilisation''' : en ligne de commande (avec tous arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 pour utiliser le GUI cré par Adeline et Nicolas : setcluspack cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 '''Attention''' : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !! 06e0590dc90f83db23cc86a4a80192360ccdb10d 1816 1808 2007-09-28T12:17:50Z Wraff 5 wikitext text/x-wiki Cluspack permet de lancer un clustering en k-means ou en mixture-models '''Input format''': Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin) '''Utilisation''' : en ligne de commande (avec tous arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 '''Attention''' : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !! db8d029a9796ffc9f5430297906b3ceb94d85d9f 1820 1816 2007-10-01T08:22:00Z Wraff 5 wikitext text/x-wiki Cluspack permet de lancer un clustering en k-means ou en mixture-models. <br> Plus de details sont sur le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] '''Input format''': Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br> La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin) '''Utilisation''' : En ligne de commande (avec tous arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 '''Attention''' : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !! e0827793ef5d9d9d8bd5d4e0f69342ce401ccf77 Flush 0 1354 1811 2007-09-27T16:59:02Z Wraff 5 New page: ==Flush== C'est une librarie R dedié à la filtration des données de transcription profiling avec des puces Affymetrix. La librairie est disponible chez [http://www.meb.ki.se/~yudpaw/ Y... wikitext text/x-wiki ==Flush== C'est une librarie R dedié à la filtration des données de transcription profiling avec des puces Affymetrix. La librairie est disponible chez [http://www.meb.ki.se/~yudpaw/ Yidi Pawitan]. Plus des details sont dans le manuscrit : Calza S, Raffelsberger W, Ploner A, Sahel J, Leveillard T, Pawitan Y Filtering genes to improve sensitivity in oligonucleotide microarray data analysis. [http://www.ncbi.nlm.nih.gov/sites/entrez?Db=pubmed&Cmd=ShowDetailView&TermToSearch=17702762&ordinalpos=1&itool=EntrezSystem2.PEntrez.Pubmed.Pubmed_ResultsPanel.Pubmed_RVDocSum Nucleic Acids Res. 2007 Aug 15;35(16) e102]. 1b3030eff908030b069d66e0fbcb53247136621b 1812 1811 2007-09-27T17:00:18Z Wraff 5 /* Flush */ wikitext text/x-wiki C'est une librarie R dedié à la filtration des données de transcription profiling avec des puces Affymetrix. La librairie est disponible chez [http://www.meb.ki.se/~yudpaw/ Yidi Pawitan]. Plus des details sont dans le manuscrit : Calza S, Raffelsberger W, Ploner A, Sahel J, Leveillard T, Pawitan Y Filtering genes to improve sensitivity in oligonucleotide microarray data analysis. [http://www.ncbi.nlm.nih.gov/sites/entrez?Db=pubmed&Cmd=ShowDetailView&TermToSearch=17702762&ordinalpos=1&itool=EntrezSystem2.PEntrez.Pubmed.Pubmed_ResultsPanel.Pubmed_RVDocSum Nucleic Acids Res. 2007 Aug 15;35(16) e102]. 32cb4588cb59f10d250ccc88e6784cdc1b76ab09 Fedlord 0 1355 1822 2007-10-08T12:33:59Z Ripp 1 Redirecting to [[FedLord]] wikitext text/x-wiki #redirect [[FedLord]] cfc5c80ad550cf8efc67c3f59d164a7b7af4ecdf FedLord 0 1332 1823 1733 2007-10-08T12:35:19Z Ripp 1 wikitext text/x-wiki FedLord is the unique database centralising the [[Fed]] users of a federeation of Fed databases. If all people are centralised in this database it will be possible to share the access rights within several Fed servers. ==Actuellement== Actuellement c'est Genoret Database qui joue le rôle de FedLord ... 907be27968a8cd44d9ea1a87eeaa5b55039c7f9e Dbgs 0 1356 1824 2007-10-09T15:04:02Z Ripp 1 New page: DBGS Département de Biologie et de Génomique Structurales de l'[[IGBMC]] Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est compsé de plus de 120 personnes repar... wikitext text/x-wiki DBGS Département de Biologie et de Génomique Structurales de l'[[IGBMC]] Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est compsé de plus de 120 personnes reparties en 12 [[Equipes du DBGS]] Il est dirigé par [[Patrick Schultz]] 8bc4097a2846c15f0605dc269e01fb6ea948686d 1825 1824 2007-10-09T15:04:21Z Ripp 1 wikitext text/x-wiki DBGS Département de Biologie et de Génomique Structurales de l'[[IGBMC]] Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est compsé de plus de 120 personnes reparties en 12 [[Equipes du DBGS|Equipes]] Il est dirigé par [[Patrick Schultz]] 4b934dd3343fccc78aa59945ab236938cdc2f625 1826 1825 2007-10-09T15:04:50Z Ripp 1 wikitext text/x-wiki DBGS : Département de Biologie et de Génomique Structurales de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est compsé de plus de 120 personnes reparties en 12 [[Equipes du DBGS|Equipes]] Il est dirigé par [[Patrick Schultz]] 58008f802aad4a160a1474b8bf9fcf94ca02dcf0 1827 1826 2007-10-09T15:05:06Z Ripp 1 wikitext text/x-wiki DBGS : Département de Biologie et de Génomique Structurales de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est compsé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]] Il est dirigé par [[Patrick Schultz]] 234122f98ba9d9d7aaf1784637257c0a223f09a9 1828 1827 2007-10-09T15:06:25Z Ripp 1 wikitext text/x-wiki DBGS : Département de Biologie et de Génomique Structurales de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est compsé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]] Il est dirigé par [[Patrick Schultz]] ==Links== See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site] 757f84f119aeaf9e193bc7e58a0b8487ea2d4cd3 1829 1828 2007-10-10T08:51:34Z Ripp 1 wikitext text/x-wiki DBGS : Département de Biologie et de Génomique Structurales de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est compsé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]] Il est dirigé par [[Patrick Schultz]] ==Links== See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site] 17fdd069f2a9ce26dff859cc68f07fcd7e444fdf BIRD 0 1313 1833 1832 2007-10-12T06:24:46Z Ripp 1 wikitext text/x-wiki ==BIRD== Le [[Bird Website|site web]] de Hoan Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird proc BirdFromQueryText {Texte {OutFile ""} {BirdUrl ""}} proc BirdFromQueryFile {Fichier {OutFile ""} {BirdUrl ""}} '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode a57b0fb1ff206a632c76e73ade85d3781ebf17cf 1834 1833 2007-10-12T06:27:57Z Ripp 1 wikitext text/x-wiki ==BIRD== Le [[Bird Website|site web]] de Hoan Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 98249a66115de78836323e61c3a27f271842e223 1835 1834 2007-10-12T06:29:41Z Ripp 1 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website|site web]] de Hoan Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 711959509282506bf6dc678ed9c6c3e1114292e4 LBGI 0 1280 1836 1815 2007-10-15T06:58:41Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] =Présentaion en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. b64aa46ddd101dd2a184ede27a12e37f2f4bf787 1837 1836 2007-10-15T07:00:17Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] =Présentaion en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 32e3d3907959632e11c6e3e7a8b41d1b2cb4a77a 1838 1837 2007-10-15T07:03:39Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] Les [[Membres du LBGI]] (25 personnes dont [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] =Présentaion en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 2708e6043d411b4d01de981e375db1476a9ed8e9 1839 1838 2007-10-15T07:04:17Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] Les [[Membres du LBGI]] (25 personnes dont [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. fe544bdd22c546749c1ecc3511007ee97af9e665 1841 1839 2007-10-15T07:17:18Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] Les [[Membres du LBGI]] (25 personnes dont 10 permanents, [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. b5a07686913e9b4b969aefbd07aa4415f0ede9ea 1842 1841 2007-10-15T07:34:24Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) Le LBGI est fait parti du Département de Biologie et Génomique Structurales (DBGS) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire (IGBMC) [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 350a8ab0732b4f9ddb1342db59dd7d3513285b3c 1843 1842 2007-10-15T07:36:26Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) Le LBGI est fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]) [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. a6999217aecb1dca66b0e87ebb439619605c09b6 1844 1843 2007-10-15T07:37:37Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) Le LBGI est fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]) [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : • la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. • la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 8470885f7f57b44f62194956fa1e01adc346b289 1845 1844 2007-10-15T07:40:03Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 2c871562f20575924d111c1ef7672c4bb4393004 1846 1845 2007-10-15T07:40:27Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. b4a44d2b042d11f39289ade299e59c05152911a5 1847 1846 2007-10-15T07:41:30Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 082c741c6edc7f6f8a4118e396e9e523891a68bf 1848 1847 2007-10-15T07:42:01Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 3ce4776efa88bee4e2af44ceb25cdd4e45ce667e 1849 1848 2007-10-15T07:42:28Z Ripp 1 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 082c741c6edc7f6f8a4118e396e9e523891a68bf 1851 1849 2007-10-17T13:50:12Z Wraff 5 /* Bioinformatics : development of software and databases */ wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves # The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, # The development of a statistical model to discriminate CGH outliers that might indicate microevents, # The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. # Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 104f62abcc22498adf971ea8775953f1858f699d Membres du LBGI 0 1333 1840 1630 2007-10-15T07:15:55Z Ripp 1 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] (doctorant) * [[Radhouene Aniba]] (doctorant) * [[Yannick-Noël Anno]] (doctorant) * [[Guillaume Berthommier]] (IE 3A CDD) * [[Laurent Bianchetti]] (IR2 INSERM) * [[Yann Brélivet]] (thése) * [[Sophie Candel]] (IE 1B CDD) * [[Annaïck Carles]] (IE 3A CDD) * [[Anne Friederich]] (doctorant) * [[Nicolas Gagnière]] (doctorant) * [[Véronique Geoffroy]] (IE 3A GIE) * [[User:Dkieffer | David Kieffer]] (doctorant) * [[Odile Lecompte]] (MC2 ULP) * [[Luc Moulinier]] (IE2 CNRS) * [[Ngoc-Hoan Nguyen]] (post doc) * [[Frédéric Plewniak]] (IR2 CNRS) * [[Emmanuel Perrodou]] (post doc) * [[Olivier Poch]] (DR2 CNRS) * [[Laëtitia Poidevin]] (IE CDD) * [[Wolfgang Raffelsberger]] (postdoc) * [[Ravikiran Reddy]] (doctorant) * [[Raymond Ripp]] (IR1 CNRS) * [[Jean-Claude Thierry]] (DR1 CNRS) * [[Julie Thompson]] (IE2 CNRS) * [[Nicolas Wicker]] (MC2 ULP) eaecdff06facef166d07326457858cc92a086df3 JRI 0 1348 1850 1801 2007-10-17T09:03:03Z Dkieffer 2 /* Se connecter a R */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz] Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Script de démarage de mon programme Java== #!/bin/sh # #Var environment # R_HOME=/usr/lib/R export R_HOME R_SHARE_DIR=/usr/share/R/share export R_SHARE_DIR R_INCLUDE_DIR=/usr/share/R/include export R_INCLUDE_DIR R_DOC_DIR=/usr/share/R/doc export R_DOC_DIR LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin export LD_LIBRARY_PATH # #java commande # java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar" ==Se connecter a R== /** connect to a new instance of R. * * for a simple instance use: Rengine R = connect(null,false,null); * * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] [http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 5798d24e88e039489e9a9285033b1b7b1580f623 1852 1850 2007-10-17T14:19:49Z Dkieffer 2 /* Installation */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *JRI.tar.gz sur [http://www.rforge.net/JRI/ rforge.net] *ou la version 0.4-0 directement [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_0.4-0.tar.gz ici]. Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. =Exemples= ==Script de démarage de mon programme Java== #!/bin/sh # #Var environment # R_HOME=/usr/lib/R export R_HOME R_SHARE_DIR=/usr/share/R/share export R_SHARE_DIR R_INCLUDE_DIR=/usr/share/R/include export R_INCLUDE_DIR R_DOC_DIR=/usr/share/R/doc export R_DOC_DIR LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin export LD_LIBRARY_PATH # #java commande # java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar" ==Se connecter a R== /** connect to a new instance of R. * * for a simple instance use: Rengine R = connect(null,false,null); * * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] [http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 8c0d5e06ebb32282c5039722d00bdd5fd3fdc11d 1853 1852 2007-10-17T14:25:47Z Dkieffer 2 wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *JRI.tar.gz sur [http://www.rforge.net/JRI/ rforge.net] *ou la version 0.4-0 directement [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_0.4-0.tar.gz ici]. Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. La doc de l'API 0.4-0 est téléchargeable [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip ici] =Exemples= ==Script de démarage de mon programme Java== #!/bin/sh # #Var environment # R_HOME=/usr/lib/R export R_HOME R_SHARE_DIR=/usr/share/R/share export R_SHARE_DIR R_INCLUDE_DIR=/usr/share/R/include export R_INCLUDE_DIR R_DOC_DIR=/usr/share/R/doc export R_DOC_DIR LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin export LD_LIBRARY_PATH # #java commande # java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar" ==Se connecter a R== /** connect to a new instance of R. * * for a simple instance use: Rengine R = connect(null,false,null); * * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] [http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc] La doc de l'API 0.4-0 en [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip zip] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] fc23fc77dc3db6e0874abb45934df105b9dba70f 1855 1853 2007-10-18T08:03:33Z Dkieffer 2 wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en [[Java]] avec [[R]]. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *JRI.tar.gz sur [http://www.rforge.net/JRI/ rforge.net] *ou la version 0.4-0 directement [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_0.4-0.tar.gz ici]. Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' (voir l'[[JRI#Script de démarage de mon programme Java | exemple]] ). ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de [[R]] ([[JRI#Se connecter à R | méthode]] pour avoir cette instance) . Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. La doc de l'API 0.4-0 est téléchargeable [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip ici] =Exemples= ==Script de démarage de mon programme Java== #!/bin/sh # #Var environment # R_HOME=/usr/lib/R export R_HOME R_SHARE_DIR=/usr/share/R/share export R_SHARE_DIR R_INCLUDE_DIR=/usr/share/R/include export R_INCLUDE_DIR R_DOC_DIR=/usr/share/R/doc export R_DOC_DIR LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin export LD_LIBRARY_PATH # #java commande # java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar" ==Se connecter à R== /** connect to a new instance of R. * * for a simple instance use: Rengine R = connect(null,false,null); * * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] [http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc] La doc de l'API 0.4-0 en [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip zip] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 8fdedc1b5a4132f531ae0906097e17e6d620b600 1856 1855 2007-10-18T08:08:37Z Dkieffer 2 /* Principes de bases */ wikitext text/x-wiki Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en [[Java]] avec [[R]]. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) . Téléchargez l'archive. *JRI.tar.gz sur [http://www.rforge.net/JRI/ rforge.net] *ou la version 0.4-0 directement [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_0.4-0.tar.gz ici]. Ensuite déployez le répertoire et placez vous dans sa racine. *Sous linux ./configure make *Sous Windows sh configure.win make =Lancement= Lors de l'installation, à la racine, un script '''run''' à été créé. C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI. Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java. ==Les variables d'environnements== *R_HOME *R_SHARE_DIR *R_INCLUDE_DIR *R_DOC_DIR *LD_LIBRARY_PATH Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' (voir l'[[JRI#Script de démarage de mon programme Java | exemple]] ). ==Les variables java== A la commande Java, vous devez rajouter deux options obligatoires: *-Djava.library.path="Le repertoire racine de JRI" *-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar" =Principes de bases= Tout se fait à partir d'un objet Rengine qui représente une instance de [[R]] ([[JRI#Se connecter à R | méthode]] pour avoir cette instance) . Il y a deux commandes principales: *'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R. *'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes. '''Attention''': La méthode ''assign'' n'est pas exécutée tout de suite dans R. L'objet sera effectif seulement après un ''eval("R ref")''. La doc de l'API 0.4-0 est téléchargeable [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip ici] =Exemples= ==Script de démarage de mon programme Java== #!/bin/sh # #Var environment # R_HOME=/usr/lib/R export R_HOME R_SHARE_DIR=/usr/share/R/share export R_SHARE_DIR R_INCLUDE_DIR=/usr/share/R/include export R_INCLUDE_DIR R_DOC_DIR=/usr/share/R/doc export R_DOC_DIR LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin export LD_LIBRARY_PATH # #java commande # java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar" ==Se connecter à R== /** connect to a new instance of R. * * for a simple instance use: Rengine R = connect(null,false,null); * * @param args arguments to be passed to R. Please note that R requires the presence of certain * arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty * list usually doesn't work. * @param b if set to <code>true</code> the the event loop will be started as soon as * possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to * be set correspondingly as well. * @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks * RMainLoopCallbacks} interface that provides methods to be called by R * @return a new R instance * @throws java.lang.Exception when the connection failed */ public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{ // just making sure we have the right version of everything if (!Rengine.versionCheck()) { throw new Exception("** Version mismatch - Java files don't match library version."); } Rengine re=new Rengine(args, b, rMain); // the engine creates R is a new thread, so we should wait until it's ready if (!re.waitForR()) { throw new Exception("Cannot load R"); } return re; } ==Passer une matrice à R depuis Java== /** * Create a matrix objet in R from 2D table of double * * @param r the R instance used * @param matrix the 2D table of double * * the matrix must have always the same column number on every row * * @param assign the R object name * @return R matrix instance or null if R return a error * * To convert this R matrix to double[][], use asMatrix() method * or r.eval(assign).asMatrix(); * */ public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){ REXP resultat=null; if(matrix.length>0){ r.assign(assign,matrix[0]); resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)"); }else{ return null; } for(int i=1; i<matrix.length;i++){ r.assign("intermediaire",matrix[i]); resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))"); } return resultat; } =liens= [http://www.rforge.net/JRI/ Le site du projet] [http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc] La doc de l'API 0.4-0 en [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip zip] =Voir aussi= *[[Java]] *[[R]] *[[rJava]] 6d780aa527fd3499edcd73528c22e3aeebf59c53 RReportGenerator 0 1342 1854 1790 2007-10-17T14:34:05Z Wraff 5 wikitext text/x-wiki La plate-forme statistique [[R]] [http://www.r-project.org voir aussi le site de R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RRG.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme RReportGenerator (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existe un scenario d'analyse pour resumant une large collection des types de controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot. # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization] # Puces à cellules transfectées (TCA) En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. 148682e9d7d00987f5c6a30e2bfc3371455dc3d8 Sophie Candel 0 1337 1857 1623 2007-10-18T13:23:40Z Candel 10 wikitext text/x-wiki [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28SepF07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://www.research.ibm.com/UIMA/ IBM, projet UIMA] [http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] a005d8c0385580629f735c83b54dcec60e1552f9 1858 1857 2007-10-18T13:24:30Z Candel 10 wikitext text/x-wiki [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://www.research.ibm.com/UIMA/ IBM, projet UIMA] [http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] 7533f89d9c3be0637dd797da54b9719a52c6a390 1859 1858 2007-10-18T13:25:24Z Candel 10 wikitext text/x-wiki Les présentations: [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://www.research.ibm.com/UIMA/ IBM, projet UIMA] [http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] bb0c64c2abcf40332a13719154f15f2081a2443d 1860 1859 2007-10-18T13:25:33Z Candel 10 wikitext text/x-wiki Les présentations:\n [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://www.research.ibm.com/UIMA/ IBM, projet UIMA] [http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] d9475a41acdc7cb05fecc014d8e3b457d2abea88 1861 1860 2007-10-18T13:25:44Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://www.research.ibm.com/UIMA/ IBM, projet UIMA] [http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] 9ba6035746ee2672be50f256ed2d1ad0c2918379 1862 1861 2007-10-18T13:29:30Z Candel 10 a wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] d6c65c1e95604e8b106b708f7a6772af4af1322f 1863 1862 2007-10-18T13:31:11Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html la documentation d'UIMA v2.0] [http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] 966988b2df5647b8400740b479ad718f37414f9b 1864 1863 2007-10-18T13:37:29Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html la documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Sources UIMA] [http://incubator.apache.org/uima/javadoc.html UIMA javadoc] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] c49a7eaea9acabc6f9be52b472a8b3864852d07c 1865 1864 2007-10-18T13:38:02Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html la documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] cf8b00348a5cf5c29ee9bb06c5347f6fe4bfc606 1866 1865 2007-10-18T13:38:20Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository] [http://www.eclipse.org/downloads/ Eclipse] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] 03fbb732ea8f3455a1fe3b9f606f8f06b7e7b3bd 1867 1866 2007-10-18T13:44:22Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] Mon guide en cours de rédaction: [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.odt UIMA Survival Guide for IBISSA Developers] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] 259540741cc0020f55fc76aef18798d18f2db0d6 1868 1867 2007-10-18T13:44:57Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] Mon guide en cours de rédaction: [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2 UIMA Survival Guide for IBISSA Developers] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] d278ab8d8dcc921937fa0e67bbfd564f8b1f452f 1869 1868 2007-10-18T13:45:52Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] Mon guide en cours de rédaction: [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.odt UIMA Survival Guide for IBISSA Developers] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] 259540741cc0020f55fc76aef18798d18f2db0d6 1870 1869 2007-10-18T13:47:48Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) et pour Christophe ;) [http://www.julielab.de/content/view/117/179/ Julie] Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR: [http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR] d9d6061f938a92cb6c8f66ef625bde3b2c1c9a95 1871 1870 2007-10-18T13:48:44Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant encore de votre attention ;o) 513a57fb9b979f07b57e55d3c706d0be741459e1 1872 1871 2007-10-18T13:48:56Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA: SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant de votre attention ;o) 806cdd0933a7e42dfe3751183cf1e77072fdb332 1873 1872 2007-10-18T13:49:27Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA:<br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant de votre attention ;o) 0139f5dd316af350d87a2458d2ceb4d9ab565b65 1874 1873 2007-10-18T13:49:41Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA:<br><br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] En vous remerciant de votre attention ;o) e83601c5fd0934798fdd3d3b8c046a79a59a090f 1875 1874 2007-10-18T13:50:22Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA:<br><br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>En vous remerciant de votre attention ;o) 85cd1aacb47264fabe8733d57f66c0d3f2b7115e 1876 1875 2007-10-18T13:50:52Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA:<br><br> <t>SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>En vous remerciant de votre attention ;o) 3dd95b122017a43c497579e24c5ee764b268342f 1877 1876 2007-10-18T13:51:30Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA:<br><br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les Sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>En vous remerciant de votre attention ;o) 85cd1aacb47264fabe8733d57f66c0d3f2b7115e 1878 1877 2007-10-18T13:53:40Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 Quelques liens utiles pour UIMA:<br><br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>En vous remerciant de votre attention ;o) 72f395a7245497345e5f06e37fb3c1a91de053e6 Dbgs 0 1356 1879 1829 2007-10-19T11:29:17Z Ripp 1 wikitext text/x-wiki DBGS : Département de Biologie et de Génomique Structurales de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est composé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]] Il est dirigé par [[Patrick Schultz]] ==Abréviations== DBGS, MEM, LBGI, ... voir [[Abréviations]] ==Links== See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site] 107288adecbe65f943b033f8f01a76d258208f1a Abréviations 0 1357 1880 2007-10-19T11:43:23Z Ripp 1 New page: * DBGS Département de Biologie et de Génomique Structurales * LBGI Laboratoire de Bioinformatique et de Génomique Structurales * LBCMM BioCristallographie et Modélisation Moléculair... wikitext text/x-wiki * DBGS Département de Biologie et de Génomique Structurales * LBGI Laboratoire de Bioinformatique et de Génomique Structurales * LBCMM BioCristallographie et Modélisation Moléculaire * LEIG Expression de l'Information Génétique * CIMC Catalyse et Inhibition : Méthodologie Cristallographique * MEM Microscopie Electronique Moleculaire * MM Modelisation Moléculaire * BIPS BioInformatic Platform Strasbourg * PBGS Plateforme Biologie et Génomique Structurales * LRMNB Résonnance Magnétique Nucléaire Biomoléculaire * SRC Signalisations et Réponses Cellulaires</a></li> * SFPC Structure and Function of Protein Complexes * SNR Steroid Nuclear Receptor * Alexsys Alignment Expert System * EvolHHuPro Evolution Histories of Human Proteome * MyoNet Myogenesys Network a8c485da5f41ab1e15a31ce98c78d76b6ea72b6a 1881 1880 2007-10-19T11:44:55Z Ripp 1 wikitext text/x-wiki * '''DBGS''' Département de Biologie et de Génomique Structurales * '''LBGI''' Laboratoire de Bioinformatique et de Génomique Structurales * '''LBCMM''' BioCristallographie et Modélisation Moléculaire * '''LEIG''' Expression de l'Information Génétique * '''CIMC''' Catalyse et Inhibition : Méthodologie Cristallographique * '''MEM''' Microscopie Electronique Moleculaire * '''MM''' Modelisation Moléculaire * '''BIPS''' BioInformatic Platform Strasbourg * '''PBGS''' Plateforme Biologie et Génomique Structurales * '''RMNB''' Résonnance Magnétique Nucléaire Biomoléculaire * '''SRC''' Signalisations et Réponses Cellulaires</a></li> * '''SFPC''' Structure and Function of Protein Complexes * '''SNR''' Steroid Nuclear Receptor * '''Alexsys''' Alignment Expert System * '''EvolHHuPro''' Evolution Histories of Human Proteome * '''MyoNet''' Myogenesys Network 493db7d346d2704b146edfd7aaadc216a3b18ea8 1882 1881 2007-10-19T11:45:20Z Ripp 1 wikitext text/x-wiki <pre> * '''DBGS''' Département de Biologie et de Génomique Structurales * '''LBGI''' Laboratoire de Bioinformatique et de Génomique Structurales * '''LBCMM''' BioCristallographie et Modélisation Moléculaire * '''LEIG''' Expression de l'Information Génétique * '''CIMC''' Catalyse et Inhibition : Méthodologie Cristallographique * '''MEM''' Microscopie Electronique Moleculaire * '''MM''' Modelisation Moléculaire * '''BIPS''' BioInformatic Platform Strasbourg * '''PBGS''' Plateforme Biologie et Génomique Structurales * '''RMNB''' Résonnance Magnétique Nucléaire Biomoléculaire * '''SRC''' Signalisations et Réponses Cellulaires</a></li> * '''SFPC''' Structure and Function of Protein Complexes * '''SNR''' Steroid Nuclear Receptor * '''Alexsys''' Alignment Expert System * '''EvolHHuPro''' Evolution Histories of Human Proteome * '''MyoNet''' Myogenesys Network </pre> 980d4f5757a34f304c5fe60985ca3c03f9670045 Abréviations 0 1357 1883 1882 2007-10-19T11:51:24Z Ripp 1 wikitext text/x-wiki <pre> DBGS Département de Biologie et de Génomique Structurales LBGI Laboratoire de Bioinformatique et de Génomique Structurales LBCMM BioCristallographie et Modélisation Moléculaire LEIG Expression de l'Information Génétique CIMC Catalyse et Inhibition : Méthodologie Cristallographique MEM Microscopie Electronique Moleculaire MM Modelisation Moléculaire BIPS BioInformatic Platform Strasbourg PBGS Plateforme Biologie et Génomique Structurales RMNB Résonnance Magnétique Nucléaire Biomoléculaire SRC Signalisations et Réponses Cellulaires</a></li> SFPC Structure and Function of Protein Complexes SNR Steroid Nuclear Receptor Alexsys Alignment Expert System EvolHHuPro Evolution Histories of Human Proteome MyoNet Myogenesys Network </pre> 83fa64be8c2f617d773ac8238f4c697b21b0532c 1884 1883 2007-10-19T11:52:23Z Ripp 1 wikitext text/x-wiki <pre> BIPS BioInformatic Platform Strasbourg CIMC Catalyse et Inhibition : Méthodologie Cristallographique DBGS Département de Biologie et de Génomique Structurales LBGI Laboratoire de Bioinformatique et de Génomique Structurales LBCMM BioCristallographie et Modélisation Moléculaire LEIG Expression de l'Information Génétique MEM Microscopie Electronique Moleculaire MM Modelisation Moléculaire PBGS Plateforme Biologie et Génomique Structurales RMNB Résonnance Magnétique Nucléaire Biomoléculaire SFPC Structure and Function of Protein Complexes SNR Steroid Nuclear Receptor SRC Signalisations et Réponses Cellulaires Alexsys Alignment Expert System EvolHHuPro Evolution Histories of Human Proteome MyoNet Myogenesys Network </pre> 689b5cbc101c644da41cf308147213009665bc87 1889 1884 2007-10-19T11:58:57Z Ripp 1 Redirecting to [[Abbreviations]] wikitext text/x-wiki #redirect [[Abbreviations]] 61d288ed34bc9c8171772ae8c35f8d28a57a50f5 Abreviations 0 1358 1885 2007-10-19T11:54:33Z Ripp 1 Redirecting to [[Abréviations]] wikitext text/x-wiki #redirect [[Abréviations]] 7e49cd0492b64bdd7abaf27c4c17fcde3e7d9c64 1888 1885 2007-10-19T11:58:00Z Ripp 1 Redirecting to [[Abbreviations]] wikitext text/x-wiki #redirect [[Abbreviations]] 61d288ed34bc9c8171772ae8c35f8d28a57a50f5 Abbreviations 0 1359 1886 2007-10-19T11:56:18Z Ripp 1 Redirecting to [[Abréviations]] wikitext text/x-wiki #redirect [[Abréviations]] 7e49cd0492b64bdd7abaf27c4c17fcde3e7d9c64 1887 1886 2007-10-19T11:57:04Z Ripp 1 wikitext text/x-wiki <pre> BIPS BioInformatic Platform Strasbourg CIMC Catalyse et Inhibition : Méthodologie Cristallographique DBGS Département de Biologie et de Génomique Structurales LBGI Laboratoire de Bioinformatique et de Génomique Structurales LBCMM BioCristallographie et Modélisation Moléculaire LEIG Expression de l'Information Génétique MEM Microscopie Electronique Moleculaire MM Modelisation Moléculaire PBGS Plateforme Biologie et Génomique Structurales RMNB Résonnance Magnétique Nucléaire Biomoléculaire SFPC Structure and Function of Protein Complexes SNR Steroid Nuclear Receptor SRC Signalisations et Réponses Cellulaires Alexsys Alignment Expert System EvolHHuPro Evolution Histories of Human Proteome MyoNet Myogenesys Network </pre> 689b5cbc101c644da41cf308147213009665bc87 Sophie Candel 0 1337 1890 1878 2007-10-24T12:06:36Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.odt Guide de Survie IBISSA] Octobre 2007 <br> Quelques liens utiles pour UIMA:<br><br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>En vous remerciant de votre attention ;o) 5e16c57a89df08df886101167cfad8e3754e7a81 1891 1890 2007-10-24T12:12:07Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.odt Guide de Survie IBISSA] Octobre 2007(NB: document .odt --> Enregistrer puis ouvrir avec Open Office Writer) <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>En vous remerciant de votre attention ;o) 32c06427dfcb442bda6ff3edbf63415c314e5dc9 1892 1891 2007-10-24T12:54:39Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.pdf Guide de Survie IBISSA] Octobre 2007 <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>En vous remerciant de votre attention ;o) 15bf5e356425870e10a32169d684d8b617ce9758 1905 1892 2007-11-14T12:41:30Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V3.pdf Guide de Survie IBISSA] Octobre 2007 <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>En vous remerciant de votre attention ;o) c2baca2830fd02797fe199e009ba5b7cfbea5ecf 1906 1905 2007-11-14T13:10:38Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V3.pdf Guide de Survie IBISSA] Octobre 2007 <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>En vous remerciant de votre attention ;o) 67f9f6dc0f2a993eac1cf02758a79e9889fbe67e 1907 1906 2007-11-14T13:11:30Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V3.pdf Guide de Survie IBISSA] Octobre 2007 <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>Bon travail!!! ;o) d8ee694d17c06c27d07003c4551b4489c0ec2036 Java 0 1293 1893 1794 2007-10-25T07:45:04Z Dkieffer 2 wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]] A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java . ==Projets internes lien a Java== *[[IBISSA]] *[[BIRD]] *[[JMacs]] ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 9275168b98f6c98507d81ad283527c1428697536 1894 1893 2007-10-25T07:45:28Z Dkieffer 2 /* Projets internes lien a Java */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]] A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java . ==Projets internes liés à Java== *[[IBISSA]] *[[BIRD]] *[[JMacs]] ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] daaad3e7197635964cd7d69eed1bdbe334ede299 1899 1894 2007-10-29T08:34:09Z Dkieffer 2 /* Projets internes liés à Java */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]] A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java . ==Projets internes liés à Java== *[[IBISSA]] *[[BIRD]] *[[JMacs]] *[[JavOO]] ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] 1965fff8403f6ad1ff3eb367cb35e4523ec6f3b0 JMacs 0 1360 1895 2007-10-25T07:53:44Z Dkieffer 2 New page: Un projet de librairie Java pour manipuler simplement des alignements multiples, basé sur [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16043635 mao] et le for... wikitext text/x-wiki Un projet de librairie Java pour manipuler simplement des alignements multiples, basé sur [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16043635 mao] et le format [[MACSIMS]]. Le projet est sur le [[CVS]] de notre labo sous [[User:Dkieffer | dkieffer]]. f506e8e03726dfa2c2f3817504d1d4be9e15f601 1898 1895 2007-10-25T08:09:57Z Dkieffer 2 wikitext text/x-wiki Un projet de librairie [[Java]] pour manipuler simplement des alignements multiples, basé sur [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16043635 mao] et le format [[MACSIMS]]. Le projet est sur le [[CVS]] de notre labo sous [[User:Dkieffer | dkieffer]]. 5874a93652875ce4fa9053a5442fe9728e82e7a8 ProGS 0 1298 1896 1384 2007-10-25T07:54:50Z Dkieffer 2 wikitext text/x-wiki ProGS est la base de données Gscope Clonage Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule ! En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une étude Gscope de la séquence au [[MACSIMS]] de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales. ProGS est accessible par web à travers [[GscopeHtmlServer]] [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS] Il faudrait développer Gscope Clonage en base de données SQL ... ff07744b0e1ab23f90ffae05f4c0be5e609a8aa3 IBISSA 0 1361 1897 2007-10-25T08:04:55Z Dkieffer 2 New page: IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] p... wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. 034b09df5c53e55d005b949fe87730dd60cf45fc 1908 1897 2007-11-15T16:32:50Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. <br> <br> <br> '''Créer un projet IBISSA sur Star:''' <br> <br> Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenetre de commande: <br> ''>eclipse-uima'' <br> <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail. <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail <br> <br> Une fois que c'est fait il ne vous reste plus qu'a paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Amusez-vous bien ;o) df217f08e6cb2a30aa131c6ceac8e08394d66395 1909 1908 2007-11-15T16:46:15Z Dkieffer 2 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= <br> <br> Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenetre de commande: <br> ''>eclipse-uima'' <br> <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail. <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail <br> <br> Une fois que c'est fait il ne vous reste plus qu'a paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. a0a22acd9716fe94925e441f5009d91d52a53665 1910 1909 2007-11-15T16:49:34Z Dkieffer 2 /* Créer un projet IBISSA sur Star */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenetre de commande: <br> ''>eclipse-uima'' <br> <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail. <br> Une fois que c'est fait il ne vous reste plus qu'a paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. 1928d0978b5e0b43d240585a44e89f1385542da9 1913 1910 2007-11-16T08:57:53Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenetre de commande: <br> ''>eclipse-uima'' <br> <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail. <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. a3946750306c8a1a4c29dfa9471624c8d93413b7 RReportGenerator 0 1342 1900 1854 2007-10-30T17:22:49Z Wraff 5 wikitext text/x-wiki La plate-forme statistique [[R]] [http://www.r-project.org voir aussi le site de R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme RReportGenerator (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par MAIA). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. 1f36ff9030e13bc687541ef1d983bfa1aacd0c83 1922 1900 2007-11-20T11:04:58Z Wraff 5 wikitext text/x-wiki View this page in English : [[RRG_english]] La plate-forme statistique [[R]] [http://www.r-project.org voir aussi le site de R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme RReportGenerator (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par MAIA). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. 5cf991ffe46d2b1d03e46c6a257c93600bba41d2 1923 1922 2007-11-20T11:21:32Z Wraff 5 wikitext text/x-wiki View this page in English : [[RRG_english]] La plate-forme statistique [[R]] [http://www.r-project.org voir aussi le site de R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par MAIA). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. 72a97817adfe984b1bdc3e5a7aeece52af1a5549 1926 1923 2007-11-20T13:47:56Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RRG_english]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. ad6940e3874532961f1c131807d29bdee3704ddc 1929 1926 2007-11-20T13:49:54Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_english]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. 26986cf07292389f55121fdcada9854fbf87cd29 1931 1929 2007-11-20T13:50:31Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_English]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. 1a3a29db84ec25b85e013c01ea29c34a3003ce4c Yannick-Noël Anno 0 1336 1901 1600 2007-11-13T13:09:38Z Yannick-Noel 6 /* Utilitaires */ wikitext text/x-wiki == Parcours == * 1979-1979: Naissance, 3,250 kgs * (...) * 2000-2001: Maitrise de Biologie Cellulaire & Physiologie * 2001-2005: Informaticien * 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007) == Thèmatique de recherche == Localisation des sites de fixation de facteurs de transcription (TFBS) == Utilitaires == * '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGene par défaut) * '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut) * '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour) * '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC) * '''CrmTargers''' : Recherche, pour une séquence donnée (chromosome:start-end): * le gène le plus proche peu importe le brin, en 5', interne ou en 3' * les deux gènes potentiellement régulés par cette séquence (distance de "régulabilité" à fournir. Ce programme fournit la distance au TSS, l'exon ou l'intron si lon se trouve dans un gène, le nom et la description du gène considéré etc... Vitesse de traitement moyenne : 50.000 séquences par heure. Une version web existe. Me contacter pour ça. 928ac63f934cd606826be3d42fd0381732c9dfab 1902 1901 2007-11-13T13:11:23Z Yannick-Noel 6 /* Parcours */ wikitext text/x-wiki == Parcours == * 1979-1979: Naissance, 3,250 kgs * (...) * 2000-2001: Maitrise de Biologie Cellulaire & Physiologie * 2001-2005: Informaticien * 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007) * 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes) == Thèmatique de recherche == Localisation des sites de fixation de facteurs de transcription (TFBS) == Utilitaires == * '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGene par défaut) * '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut) * '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour) * '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC) * '''CrmTargers''' : Recherche, pour une séquence donnée (chromosome:start-end): * le gène le plus proche peu importe le brin, en 5', interne ou en 3' * les deux gènes potentiellement régulés par cette séquence (distance de "régulabilité" à fournir. Ce programme fournit la distance au TSS, l'exon ou l'intron si lon se trouve dans un gène, le nom et la description du gène considéré etc... Vitesse de traitement moyenne : 50.000 séquences par heure. Une version web existe. Me contacter pour ça. a8036b19fbfaeb0a1293af80389a61f604d1a219 1903 1902 2007-11-13T13:11:50Z Yannick-Noel 6 /* Utilitaires */ wikitext text/x-wiki == Parcours == * 1979-1979: Naissance, 3,250 kgs * (...) * 2000-2001: Maitrise de Biologie Cellulaire & Physiologie * 2001-2005: Informaticien * 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007) * 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes) == Thèmatique de recherche == Localisation des sites de fixation de facteurs de transcription (TFBS) == Utilitaires == * '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGene par défaut) * '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut) * '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour) * '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC) * '''CrmTargets''' : Recherche, pour une séquence donnée (chromosome:start-end): * le gène le plus proche peu importe le brin, en 5', interne ou en 3' * les deux gènes potentiellement régulés par cette séquence (distance de "régulabilité" à fournir. Ce programme fournit la distance au TSS, l'exon ou l'intron si lon se trouve dans un gène, le nom et la description du gène considéré etc... Vitesse de traitement moyenne : 50.000 séquences par heure. Une version web existe. Me contacter pour ça. 7d1b30816619b0b0573a813d43904f3752e95d9e 1904 1903 2007-11-13T13:12:46Z Yannick-Noel 6 /* Utilitaires */ wikitext text/x-wiki == Parcours == * 1979-1979: Naissance, 3,250 kgs * (...) * 2000-2001: Maitrise de Biologie Cellulaire & Physiologie * 2001-2005: Informaticien * 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007) * 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes) == Thèmatique de recherche == Localisation des sites de fixation de facteurs de transcription (TFBS) == Utilitaires == * '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGene par défaut) * '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut) * '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour) * '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC) * '''CrmTargets''' : Recherche, pour une séquence donnée (chromosome:start-end): * le gène le plus proche peu importe le brin, en 5', interne ou en 3' * les deux gènes potentiellement régulés par cette séquence (distance de "régulabilité" à fournir). Ce programme fournit la distance au TSS, l'exon ou l'intron si lon se trouve dans un gène, le nom et la description du gène considéré etc... Vitesse de traitement moyenne : 50.000 séquences par heure. Une version web existe. Me contacter pour ça. 23ec4e8fbd5e94efa4e57c8a8652bdb406356100 LBGI 0 1280 1911 1851 2007-11-16T08:26:23Z Julie 14 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Projets= ==EvolHHuPro== =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves # The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, # The development of a statistical model to discriminate CGH outliers that might indicate microevents, # The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. # Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 296f84a155beb54efdf54d75679bfeef4df30f32 1912 1911 2007-11-16T08:27:51Z Julie 14 /* EvolHHuPro */ wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Projets= ==EvolHHuPro== Evolutionary Histories of the HUman Proteome The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves # The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, # The development of a statistical model to discriminate CGH outliers that might indicate microevents, # The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. # Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. fa91d5b7df556373f71de74ca821fd15608f905e 1914 1912 2007-11-16T09:17:17Z Julie 14 /* EvolHHuPro */ wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Projets= ==EvolHHuPro== [[Evolutionary Histories of the HUman Proteome]] The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves # The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, # The development of a statistical model to discriminate CGH outliers that might indicate microevents, # The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. # Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 4c1dc474ee16b8eba5bd0d9c650a484bd5edfde3 1915 1914 2007-11-16T09:20:02Z Julie 14 /* EvolHHuPro */ wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Projets= ==EvolHHuPro== [http://alnitak.u-strasbg.fr/wikili/index.php/EvolHHuPro Evolutionary Histories of the HUman Proteome] The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves # The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, # The development of a statistical model to discriminate CGH outliers that might indicate microevents, # The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. # Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. a7d93832f9d949d411cfd017205dd63cf77cd4c4 EvolHHuPro 0 1362 1916 2007-11-16T09:20:53Z Julie 14 New page: The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis. The gene... wikitext text/x-wiki The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis. The genetic information encoded in the genome sequence contains the blueprint for the potential development and activity of an organism. This information can only be fully comprehended in the light of the evolutionary events (duplication, loss, recombination, mutation…) acting on the genome, that are reflected in changes in the sequence, structure and function of the gene products (nucleic acids and proteins) and ultimately, in the biological complexity of the organism. The recent availability of the complete genome sequences of a large number of model organisms means that we can now begin to understand the mechanisms involved in the evolution of the genome and their consequences in the study of biological systems. This is illustrated by the evolutionary analyses and phylogenetic inferences that play an important role in most functional genomics studies, e.g. of promoters (‘phylogenetic footprinting’), of interactomes (notion of ‘interologs’ based on the presence and degree of conservation of counterparts of interactive proteins), and also, in comparisons of transcriptomes or proteomes (notion of phylogenetic proximity and co-regulation/co-expression). At the same time, theoretical advances in information representation and management have revolutionised the way experimental information is collected, stored and exploited. Ontologies, such as Gene Ontology (GO) or Sequence Ontology (SO), provide a formal representation of the data for automatic, high-throughput data parsing by computers. These ontologies are being exploited in the new information management systems to allow large scale data mining, pattern discovery and knowledge inference. Unfortunately, the vast number and complexity of the events shaping eukaryotic genomes means that a complete understanding of evolution at the genomic level is not currently feasible. At the lowest level, point mutations affect individual nucleotides. At a higher level, large chromosomal segments undergo duplication, lateral transfer, inversion, transposition, deletion and insertion. Ultimately, whole genomes are involved in processes of hybridization, polyploidization and endosymbiosis, often leading to rapid speciation. We propose to characterise and to study the evolutionary histories of the human proteome, defined as the impact in the human proteins (extensions, insertions, deletions…) of the cascade of genetic events (duplication, lateral transfer, inversion, transposition, deletion, insertion…) that occurred during the evolution of the vertebrate genomes. This ambitious objective is now possible thanks to the emergence of formal descriptions of biological data and to the recent developments of accurate phylogenetic reconstruction and genome analyses (Partner 1: Figenix platform) and of automated reliable and exploitable protein sequence alignments (Partner 1 & 2: TCOFFEE, PipeAlign, MAO, MACSIMS…). These methodologies will be combined into a multi-agent, expert system for the construction of evolutionary histories. In order to facilitate the automatic definition of the important genetic events shaping a single protein and their potential causalities at the genome level, a new ontology will be developed. In a subsequent step, the evolutionary histories of the complete human proteome will be reconstructed, followed by their classification into protein sets sharing typical evolutionary histories, and the functional analysis of these sets. An analysis at the genomic level will be realized for a specific number of proteins identified in the classification and functional analysis step. 1ce48a89eef0cea9837286acf1894818a510e356 1917 1916 2007-11-16T09:21:37Z Julie 14 wikitext text/x-wiki The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis. The genetic information encoded in the genome sequence contains the blueprint for the potential development and activity of an organism. This information can only be fully comprehended in the light of the evolutionary events (duplication, loss, recombination, mutation…) acting on the genome, that are reflected in changes in the sequence, structure and function of the gene products (nucleic acids and proteins) and ultimately, in the biological complexity of the organism. The recent availability of the complete genome sequences of a large number of model organisms means that we can now begin to understand the mechanisms involved in the evolution of the genome and their consequences in the study of biological systems. This is illustrated by the evolutionary analyses and phylogenetic inferences that play an important role in most functional genomics studies, e.g. of promoters (‘phylogenetic footprinting’), of interactomes (notion of ‘interologs’ based on the presence and degree of conservation of counterparts of interactive proteins), and also, in comparisons of transcriptomes or proteomes (notion of phylogenetic proximity and co-regulation/co-expression). At the same time, theoretical advances in information representation and management have revolutionised the way experimental information is collected, stored and exploited. Ontologies, such as Gene Ontology (GO) or Sequence Ontology (SO), provide a formal representation of the data for automatic, high-throughput data parsing by computers. These ontologies are being exploited in the new information management systems to allow large scale data mining, pattern discovery and knowledge inference. Unfortunately, the vast number and complexity of the events shaping eukaryotic genomes means that a complete understanding of evolution at the genomic level is not currently feasible. At the lowest level, point mutations affect individual nucleotides. At a higher level, large chromosomal segments undergo duplication, lateral transfer, inversion, transposition, deletion and insertion. Ultimately, whole genomes are involved in processes of hybridization, polyploidization and endosymbiosis, often leading to rapid speciation. We propose to characterise and to study the evolutionary histories of the human proteome, defined as the impact in the human proteins (extensions, insertions, deletions…) of the cascade of genetic events (duplication, lateral transfer, inversion, transposition, deletion, insertion…) that occurred during the evolution of the vertebrate genomes. This ambitious objective is now possible thanks to the emergence of formal descriptions of biological data and to the recent developments of accurate phylogenetic reconstruction and genome analyses (Partner 1: Figenix platform) and of automated reliable and exploitable protein sequence alignments (Partner 1 & 2: TCOFFEE, PipeAlign, MAO, MACSIMS…). These methodologies will be combined into a multi-agent, expert system for the construction of evolutionary histories. In order to facilitate the automatic definition of the important genetic events shaping a single protein and their potential causalities at the genome level, a new ontology will be developed. In a subsequent step, the evolutionary histories of the complete human proteome will be reconstructed, followed by their classification into protein sets sharing typical evolutionary histories, and the functional analysis of these sets. An analysis at the genomic level will be realized for a specific number of proteins identified in the classification and functional analysis step. 863b9abc3cdf1b671e9c9991e19073b82af71cf1 1918 1917 2007-11-16T09:23:06Z Julie 14 wikitext text/x-wiki The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis. =Overview= The genetic information encoded in the genome sequence contains the blueprint for the potential development and activity of an organism. This information can only be fully comprehended in the light of the evolutionary events (duplication, loss, recombination, mutation…) acting on the genome, that are reflected in changes in the sequence, structure and function of the gene products (nucleic acids and proteins) and ultimately, in the biological complexity of the organism. The recent availability of the complete genome sequences of a large number of model organisms means that we can now begin to understand the mechanisms involved in the evolution of the genome and their consequences in the study of biological systems. This is illustrated by the evolutionary analyses and phylogenetic inferences that play an important role in most functional genomics studies, e.g. of promoters (‘phylogenetic footprinting’), of interactomes (notion of ‘interologs’ based on the presence and degree of conservation of counterparts of interactive proteins), and also, in comparisons of transcriptomes or proteomes (notion of phylogenetic proximity and co-regulation/co-expression). At the same time, theoretical advances in information representation and management have revolutionised the way experimental information is collected, stored and exploited. Ontologies, such as Gene Ontology (GO) or Sequence Ontology (SO), provide a formal representation of the data for automatic, high-throughput data parsing by computers. These ontologies are being exploited in the new information management systems to allow large scale data mining, pattern discovery and knowledge inference. Unfortunately, the vast number and complexity of the events shaping eukaryotic genomes means that a complete understanding of evolution at the genomic level is not currently feasible. At the lowest level, point mutations affect individual nucleotides. At a higher level, large chromosomal segments undergo duplication, lateral transfer, inversion, transposition, deletion and insertion. Ultimately, whole genomes are involved in processes of hybridization, polyploidization and endosymbiosis, often leading to rapid speciation. We propose to characterise and to study the evolutionary histories of the human proteome, defined as the impact in the human proteins (extensions, insertions, deletions…) of the cascade of genetic events (duplication, lateral transfer, inversion, transposition, deletion, insertion…) that occurred during the evolution of the vertebrate genomes. This ambitious objective is now possible thanks to the emergence of formal descriptions of biological data and to the recent developments of accurate phylogenetic reconstruction and genome analyses (Partner 1: Figenix platform) and of automated reliable and exploitable protein sequence alignments (Partner 1 & 2: TCOFFEE, PipeAlign, MAO, MACSIMS…). These methodologies will be combined into a multi-agent, expert system for the construction of evolutionary histories. In order to facilitate the automatic definition of the important genetic events shaping a single protein and their potential causalities at the genome level, a new ontology will be developed. In a subsequent step, the evolutionary histories of the complete human proteome will be reconstructed, followed by their classification into protein sets sharing typical evolutionary histories, and the functional analysis of these sets. An analysis at the genomic level will be realized for a specific number of proteins identified in the classification and functional analysis step. =Definition of an ontology of genetic events and their consequences= The first stage of the project will be the formal specification of genetic events and evolutionary concepts in the form of an ontology, which will allow their exploitation in automatic knowledge extraction and inference systems. Ontologies are essential in biology for integration, organization, and knowledge management of heterogeneous information. Ontologies also provide a means of dissemination of knowledge between experts in different fields (molecular biologists, computer scientists and mathematicians). The ontology will cover the genetic events at the genomic level, such as gene duplication and loss, hybridization, horizontal gene transfer, or recombination, as well as their consequences at the protein level, in terms of domain insertions/deletions and extensions. The ontology will specify individual concepts and the relationships existing between these concepts. An important aspect of the ontology development will be the specification of links to existing biological ontologies, particularly SO and MAO, Multiple Alignment Ontology (Thompson et al., 2006). Relations will be based on the Relation Ontology (RO) wherever possible. =Development of an expert system for the reconstruction of the evolutionary history of a single protein= We will then develop methodologies that will allow the automatic reconstruction of the evolutionary history for a given gene. These will cover the automatic identification of homologs and the construction of a high quality Multiple Alignment of Complete Sequences (MACS), using the MAFFT or T-Coffee algorithms. For large protein families, a clustering method (TribeMCL) will be used to divide the set of homologs, into subsets containing less than 250 sequences, which will allow us to handle these cases efficiently. A detailed quality analysis of the multiple alignment will allow the identification of the reliable regions (RASCAL, LEON, NorMD) and the construction of an accurate phylogenetic tree (Figenix). The MACS will also be used to calculate the evolutionary rate of the gene, to determine the domain organisation (MACSIMS) and to identify family or sub-family specific residues (OrdAlie). The results will allow us to identify important genetic events and fixed functional features that will specify the potential evolutionary history of the protein in specific phyla. An interactive tool will also be developed to localise and display the genetic events at specific branches of the gene’s phylogenetic tree which will allow in-depth analysis of specific genes, for example, to detect inconsistencies that might suggest a functional shift or to reconstruct ancestral proteins. =Analysis of the evolutionary histories at the human proteome-scale= The formal specifications and the methodologies developed will be used to reconstruct the evolutionary histories for the complete human proteome. For each of the approximately 35000 genes, homologs will be identified in the currently available complete vertebrate genomes. The evolutionary histories of the proteins will then be analysed and classified to define sets of typical evolutionary histories, which will be exploited in proteome scale analyses, for example, to compare protein families with stable or unstable evolutionary rates, or to determine the set of proteins that have never, or frequently, experienced specific events during the vertebrate evolution, such as gene duplications, domain fusions or insertions, N-terminal extensions... We will then perform a structural/functional analysis of the protein sets corresponding to each typical history, in order to detect potential enrichment of a particular class of proteins, for example, informational proteins or proteins involved in specific biological process. Finally, for a specific number of the proteins identified in the analysis, the relations defined in the ontology will be exploited in order to map the protein level events to the available complete vertebrate genomes. Two distinct sets of proteins will be primarily analysed; namely, the proteins that have experienced major N-terminal extension or insertion and proteins that exhibit potential true ortholog loss. When data are available, these two protein sets will be studied to characterise potential correlations between N-terminal region genetic events and promoter or transcriptional behaviour shifts in the vertebrate lineage or between orthology losses and macromolecular complex or biological pathway modifications. 5edcbe0945c7e94494380e0f724c4a771710ba1f MyoNet 0 1363 1919 2007-11-16T11:21:05Z Julie 14 New page: Large-scale identification of transcriptional networks during myogenesis Stem cells play a central role in development and maintenance of tissues and organs in the body of animals and hum... wikitext text/x-wiki Large-scale identification of transcriptional networks during myogenesis Stem cells play a central role in development and maintenance of tissues and organs in the body of animals and humans. During growth or regeneration, skeletal muscle cells are unable to divide but replenish from a population of progenitor stem cells, which have the unique ability to divide, to produce copies of themselves as well as differentiating muscle cells. F. Relaix has identified and characterized a novel major progenitor stem cell population which gives rise to nearly all skeletal muscle cells, including the myogenic stem cell population of the adult, and identified key transcription regulators (Pax3 and Pax7) implicated in survival, specification and proliferation of these cells. The aim of the project is to identify the molecular transcriptional mechanisms of myogenic progression in vivo. The central strategy is to develop a tight collaboration between the group of F. Relaix, where all the biological data will be generated and validated, and the team of O. Poch , where all the computing analysis will be performed. The project will primarily utilize the mouse, as this is the only mammalian system tractable for comprehensive molecular genetic studies. As a first step, the laboratory of F. Relaix is currently generating new mouse genetic tools (transgenic mice carrying fluorescent reporter genes targeted in genes marking key step of myogenic progession) in order to gain access to pure myogenic populations in vivo using cell sorting. Using this strategy we will be able to isolate muscle progenitor cells, myoblasts and fibers at different time-points (throughout development, in postnatal and regenerating muscles) and perform transcriptomal analyses in collaboration with O. Poch’s team. Large-scale quantitative RT-PCR will be undertaken to validate the microarrays data. This high-throughput transcriptomal analysis will provide us with the complete set of genes involved in the myogenic lineage. In parallel, the team of O. Poch will characterize of the total set of mouse proteins involved directly or indirectly in the transcriptional processes. This will require an in depth sequence, structural, evolutionary (SSE) and functional analysis of the mouse proteome with the major objective of defining and delineating any conserved domains or regions that might be associated to known transcriptional modules. This work will be performed in collaboration with M. Andrade’s team (Ottawa, Canada) in the context of the International Regulome Consortium (http://www.internationalregulomeconsortium.ca/). In the framework of the proposed Decrypthon project, the SSE analysis of the entire human/mouse proteome (~60 000 proteins including splice variants and the human or mouse specific proteins) will involve a pipeline of processes starting with homology identification, multiple sequence alignment, structural and functional subfamily classification, orthology/paralogy analysis and phylogenetic reconstruction. We will take advantage of the previous developments performed on the Decrypthon grid, notably those concerning the MACSIMS (Multiple Alignment of Complete Sequence Information Management System) functional annotation and new protocols will be developed including PSI-Blast searches to detect distantly related proteins, recent multiple alignment algorithms implementation and phylogenetic tree algorithms. Protocols ensuring automated updating and storage in a relational database, hosted by the Decrypthon, will be developed. The results will be combined with the data from the transcriptomal analysis performed in vivo. This complementary approach is expected to help us to identify and characterise the transcriptional networks involved in muscle development, specification, regeneration and myogenic progression. In vivo functional validation will be done using mouse molecular genetics and expertise in muscle biology in the laboratory of F. Relaix. 111f7a2eb804aa4d30e44b55dd0d67d7234ed394 1920 1919 2007-11-16T11:21:22Z Julie 14 wikitext text/x-wiki =Large-scale identification of transcriptional networks during myogenesis= Stem cells play a central role in development and maintenance of tissues and organs in the body of animals and humans. During growth or regeneration, skeletal muscle cells are unable to divide but replenish from a population of progenitor stem cells, which have the unique ability to divide, to produce copies of themselves as well as differentiating muscle cells. F. Relaix has identified and characterized a novel major progenitor stem cell population which gives rise to nearly all skeletal muscle cells, including the myogenic stem cell population of the adult, and identified key transcription regulators (Pax3 and Pax7) implicated in survival, specification and proliferation of these cells. The aim of the project is to identify the molecular transcriptional mechanisms of myogenic progression in vivo. The central strategy is to develop a tight collaboration between the group of F. Relaix, where all the biological data will be generated and validated, and the team of O. Poch , where all the computing analysis will be performed. The project will primarily utilize the mouse, as this is the only mammalian system tractable for comprehensive molecular genetic studies. As a first step, the laboratory of F. Relaix is currently generating new mouse genetic tools (transgenic mice carrying fluorescent reporter genes targeted in genes marking key step of myogenic progession) in order to gain access to pure myogenic populations in vivo using cell sorting. Using this strategy we will be able to isolate muscle progenitor cells, myoblasts and fibers at different time-points (throughout development, in postnatal and regenerating muscles) and perform transcriptomal analyses in collaboration with O. Poch’s team. Large-scale quantitative RT-PCR will be undertaken to validate the microarrays data. This high-throughput transcriptomal analysis will provide us with the complete set of genes involved in the myogenic lineage. In parallel, the team of O. Poch will characterize of the total set of mouse proteins involved directly or indirectly in the transcriptional processes. This will require an in depth sequence, structural, evolutionary (SSE) and functional analysis of the mouse proteome with the major objective of defining and delineating any conserved domains or regions that might be associated to known transcriptional modules. This work will be performed in collaboration with M. Andrade’s team (Ottawa, Canada) in the context of the International Regulome Consortium (http://www.internationalregulomeconsortium.ca/). In the framework of the proposed Decrypthon project, the SSE analysis of the entire human/mouse proteome (~60 000 proteins including splice variants and the human or mouse specific proteins) will involve a pipeline of processes starting with homology identification, multiple sequence alignment, structural and functional subfamily classification, orthology/paralogy analysis and phylogenetic reconstruction. We will take advantage of the previous developments performed on the Decrypthon grid, notably those concerning the MACSIMS (Multiple Alignment of Complete Sequence Information Management System) functional annotation and new protocols will be developed including PSI-Blast searches to detect distantly related proteins, recent multiple alignment algorithms implementation and phylogenetic tree algorithms. Protocols ensuring automated updating and storage in a relational database, hosted by the Decrypthon, will be developed. The results will be combined with the data from the transcriptomal analysis performed in vivo. This complementary approach is expected to help us to identify and characterise the transcriptional networks involved in muscle development, specification, regeneration and myogenic progression. In vivo functional validation will be done using mouse molecular genetics and expertise in muscle biology in the laboratory of F. Relaix. 06684228e0edd56d70ba31604aa47ae3da15e2bd R 0 1320 1921 1821 2007-11-19T12:23:53Z Wraff 5 /* Documentation et Tutorials */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. ==Librairies développées en collaboration avec le LBGI== *[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 7f633c9b9e46418921f86c81a9813178e6fe92a3 RRG english 0 1364 1924 2007-11-20T13:47:07Z Wraff 5 New page: [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a grap... wikitext text/x-wiki [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks. 8ce23a489c3dace2bc3059b964ccb7da472e45fd 1925 1924 2007-11-20T13:47:40Z Wraff 5 wikitext text/x-wiki [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks. voir cette page en Francais : [[RRG]] 179e97cd17f63ace5c6572007f4375e52059033e 1927 1925 2007-11-20T13:48:57Z Wraff 5 wikitext text/x-wiki [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks. voir cette page en Francais : [[RReportGenerator]] 7fd81faeba4efddd5df53ceab043fdf87bd2d183 1928 1927 2007-11-20T13:49:33Z Wraff 5 Removing all content from page wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 RReportGenerator english 0 1365 1930 2007-11-20T13:50:02Z Wraff 5 New page: [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a grap... wikitext text/x-wiki [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks. voir cette page en Francais : [[RReportGenerator]] 7fd81faeba4efddd5df53ceab043fdf87bd2d183 RReportGenerator English 0 1366 1932 2007-11-20T13:50:39Z Wraff 5 New page: [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a grap... wikitext text/x-wiki [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks. voir cette page en Francais : [[RReportGenerator]] 7fd81faeba4efddd5df53ceab043fdf87bd2d183 RReportGenerator english 0 1365 1933 1930 2007-11-20T13:51:04Z Wraff 5 Removing all content from page wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 RReportGenerator English 0 1366 1934 1932 2007-11-20T13:51:53Z Wraff 5 wikitext text/x-wiki [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks. <br>... voir cette page en Francais : [[RReportGenerator]] cdfbfc9a7dd87cdff2cbf65115ff57034919b726 1935 1934 2007-11-20T14:01:58Z Wraff 5 wikitext text/x-wiki [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks. Reference: <br>The program is published in : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. Bioinformatics 2007, in press <br>... voir cette page en Francais : [[RReportGenerator]] afa69096350b065704a387e6695027d59ae82dc3 BIRD 0 1313 1936 1835 2007-11-22T14:56:55Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website|site web]] de Hoan le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 565a1927341ddb7410c8335613a6b40d85c9abb8 1937 1936 2007-11-22T14:57:15Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website|site web]] de Hoan Le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 04a156cc47b602818b68b19c09ea56438d1ff190 1938 1937 2007-11-22T14:58:05Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website|site web]] de Hoan Le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] Bird est utilisé par [[Gscope]] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 6300c8c0ff0111241a6d3f2ef6b89d9f88faedf7 1940 1938 2007-11-22T15:00:57Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website]] de Hoan Le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] Bird est utilisé par [[Gscope]] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 2e89f806ccb5b1606c04c9d7f49b446429d1c986 1941 1940 2007-11-22T15:01:20Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website]] de Hoan Le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 7b822fcb92420cabe6a854858bb76ae605dd35b9 1942 1941 2007-11-22T15:03:47Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website]] de Hoan Le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode a236c7b8ffc8f6941150ac22139124add180734d 1943 1942 2007-11-22T15:04:48Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website]] de Hoan Le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==BIRD Miner= ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode f802f0793218d625b7474b467a9bd2cbf5881784 1944 1943 2007-11-22T15:05:02Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website]] de Hoan Le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==BIRD Miner= wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode d8c58d3ebd78d85d2808528beb2b45013afa672a 1945 1944 2007-11-22T15:05:20Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==BIRD== Le [[Bird Website]] de Hoan Le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==BIRD Miner== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode e891ae6ecfee35a360b5372b80e3912a9ea01246 Bird Website 0 1367 1939 2007-11-22T14:59:13Z Nguyen 15 New page: THe Bird Website is under development wikitext text/x-wiki THe Bird Website is under development 46542227a93d0392196c9fac1f83e122e9b33c77 IBISSA 0 1361 1946 1913 2007-11-27T09:09:10Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenetre de commande Star (Star3,5,6,7 ou 8 -activée XWindows-): <br> ''>eclipse-uima'' <br> <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail. <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. d096a372eddd6dd9941e1a9ef6808f1d69a82571 1947 1946 2007-11-27T09:10:52Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. NB: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail. <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. 832d644cb690f1158259b3482f8cbbedba4e8286 1948 1947 2007-11-27T09:11:05Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> NB: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail. <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. c4689d4e0e98e434d7688ecb51ad4066a9c99009 1949 1948 2007-11-27T09:11:23Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> NB: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail. <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. e5ff4fb1dabd407fdeae6170abb158d131ff93a1 1950 1949 2007-11-27T09:13:16Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> NB: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. 90cf6f46560f2e43c9619cd91292f53f007ed2d3 1951 1950 2007-11-27T09:14:39Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> NB: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. 3373f552ba9bc58e3232ed3320945a9e8823e90c 1952 1951 2007-11-27T09:16:10Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. aa30bf3af95563c0d83ce7345ccf936352f85909 1953 1952 2007-11-28T16:40:08Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine Collection Reader ... =Types Existants= Sequence Parameters 4805c5c43ae12e75909c54da5543f63b260e73b4 1954 1953 2007-11-28T16:42:41Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine Collection Reader ... =Types Existants= Sequence <br> Parameters <br> 0f33adc673811d13adb18052005d2e3473a28d9b 1955 1954 2007-11-28T16:43:23Z Candel 10 /* Components disponibles */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Sequence <br> Parameters <br> c805845b0eb4193159727a8d671f1890bfadb342 1956 1955 2007-11-28T16:47:44Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Sequence <br> AlgoName (String)<br> ParaName (String)<br> ParaValue (String)<br> <br> Parameters <br> FullSequences (String)<br> ID (String)<br> Comments (String)<br> Code (String)<br> Kind (String)<br> <br> 2d0dc146545007a3f39672c0cca54c403302ad84 1957 1956 2007-11-28T16:51:22Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Parameters <br> AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)<br> ParaName (String, Nom du paramètre lui-même)<br> ParaValue (String, Valeur du paramètre)<br> <br> Sequence <br> FullSequences (String, la séquence formatée) <br> ID (String, l'identifiant de la séquence)<br> Comments (String, les commentaires associés à cette séquence)<br> Code (String, le code de cette séquence)<br> Kind (String, le type de séquence -rna, dna, ou proteic-)<br> <br> f14194dfd59950a0bf7b6efba529b2d748fbef8d 1958 1957 2007-11-28T16:52:09Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= [[Parameters]]<br> AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)<br> ParaName (String, Nom du paramètre lui-même)<br> ParaValue (String, Valeur du paramètre)<br> <br> [[Sequence]]<br> FullSequences (String, la séquence formatée) <br> ID (String, l'identifiant de la séquence)<br> Comments (String, les commentaires associés à cette séquence)<br> Code (String, le code de cette séquence)<br> Kind (String, le type de séquence -rna, dna, ou proteic-)<br> <br> 37a44e78014815f93e3f4a01f2ad53a01a033ebf 1959 1958 2007-11-28T16:52:32Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Parameters<br> AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)<br> ParaName (String, Nom du paramètre lui-même)<br> ParaValue (String, Valeur du paramètre)<br> <br> Sequence<br> FullSequences (String, la séquence formatée) <br> ID (String, l'identifiant de la séquence)<br> Comments (String, les commentaires associés à cette séquence)<br> Code (String, le code de cette séquence)<br> Kind (String, le type de séquence -rna, dna, ou proteic-)<br> <br> 2e83bd8f643985c1fd5109acb40689fe42be2454 1960 1959 2007-11-29T08:07:36Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= <pre>Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> c317ff54c862222bf8f33f4854239d78cf2357f1 1961 1960 2007-11-29T08:07:57Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 3fd91c96b1aec3e6073e7db1be1067ff6b42f6c9 1962 1961 2007-11-29T08:18:12Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser, procurez vous les descriptors auprès de Sophie.<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 720e992e0fac5c0e2b71055a7d46099339250758 1963 1962 2007-11-29T08:19:41Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à Sophie.<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 5faf20a11e8a4c9d2c382f47012b8b3149530fa9 1964 1963 2007-11-29T08:31:31Z Candel 10 /* sources */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à Sophie.<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> aba08035ca9c5b91adc898c94f31ca5f25e0befa 1965 1964 2007-11-29T08:34:05Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [umr:// candel@u-strasbg.fr Sophie].<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> c97b178323378ecdbddf422516842a2e98448061 1966 1965 2007-11-29T08:34:19Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [uml:// candel@u-strasbg.fr Sophie].<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> e94d3fe41ab9db8c4f1a680da4ee2f88b645021d 1967 1966 2007-11-29T08:34:28Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [uri:// candel@u-strasbg.fr Sophie].<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 3bd5409645510bff8ad84073768116413dc1506d 1968 1967 2007-11-29T08:34:39Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [http:// candel@u-strasbg.fr Sophie].<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 75fdd9096680347406d167f49af92644ac57159e 1969 1968 2007-11-29T08:34:51Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [HTTP://candel@u-strasbg.fr Sophie].<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 983d9e763a5075a05c063413b7c2a602a605fa2d 1970 1969 2007-11-29T08:35:00Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [http://candel@u-strasbg.fr Sophie].<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 6d3de46c3eb11de346430542a43db0228707d1d0 1977 1970 2007-11-29T09:22:10Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [http://candel@u-strasbg.fr Sophie].<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 87ed0141f8567acc3e34abc34c8859b502ddafde 1978 1977 2007-11-29T09:22:34Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [http://siguenza@u-strasbg.fr Sophie].<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 63ec3ea099140b6f5314d6ab99617eb70fb415bf 1979 1978 2007-11-29T09:39:44Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à Sophie (siguenza@igbmc.u-strasbg.fr)<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> c8e447302557401a33a2cc5ea0218db12bf44d6c 1980 1979 2007-11-29T09:45:08Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 60a442fab854c7bf4423672fe304ed3fe51264a4 1981 1980 2007-11-29T09:47:55Z Candel 10 /* Créer un projet IBISSA sur Star */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 054b793ad9164b9f9abd8906effced19254a51e3 1982 1981 2007-11-29T09:48:14Z Candel 10 /* Créer un projet IBISSA sur Star */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br> ''>eclipse-uima'' <br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br> ''Window>>Open Perspective>>Java'' <br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> 36c0bee962fad5220eb182c5d20d69b7f22e5d42 Membres du LBGI 0 1333 1971 1840 2007-11-29T09:18:41Z Candel 10 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] (doctorant) * [[Radhouene Aniba]] (doctorant) * [[Yannick-Noël Anno]] (doctorant) * [[Guillaume Berthommier]] (IE 3A CDD) * [[Laurent Bianchetti]] (IR2 INSERM) * [[Yann Brélivet]] (thése) * [[Sophie Siguenza]] (IE 1B CDD) * [[Annaïck Carles]] (IE 3A CDD) * [[Anne Friederich]] (doctorant) * [[Nicolas Gagnière]] (doctorant) * [[Véronique Geoffroy]] (IE 3A GIE) * [[User:Dkieffer | David Kieffer]] (doctorant) * [[Odile Lecompte]] (MC2 ULP) * [[Luc Moulinier]] (IE2 CNRS) * [[Ngoc-Hoan Nguyen]] (post doc) * [[Frédéric Plewniak]] (IR2 CNRS) * [[Emmanuel Perrodou]] (post doc) * [[Olivier Poch]] (DR2 CNRS) * [[Laëtitia Poidevin]] (IE CDD) * [[Wolfgang Raffelsberger]] (postdoc) * [[Ravikiran Reddy]] (doctorant) * [[Raymond Ripp]] (IR1 CNRS) * [[Jean-Claude Thierry]] (DR1 CNRS) * [[Julie Thompson]] (IE2 CNRS) * [[Nicolas Wicker]] (MC2 ULP) cd48e4d1335ccc08ba418786a1929a0d167a7bc9 1972 1971 2007-11-29T09:19:08Z Candel 10 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] (doctorant) * [[Radhouene Aniba]] (doctorant) * [[Yannick-Noël Anno]] (doctorant) * [[Guillaume Berthommier]] (IE 3A CDD) * [[Laurent Bianchetti]] (IR2 INSERM) * [[Yann Brélivet]] (thése) * [[Sophie Candel]] (IE 1B CDD) * [[Annaïck Carles]] (IE 3A CDD) * [[Anne Friederich]] (doctorant) * [[Nicolas Gagnière]] (doctorant) * [[Véronique Geoffroy]] (IE 3A GIE) * [[User:Dkieffer | David Kieffer]] (doctorant) * [[Odile Lecompte]] (MC2 ULP) * [[Luc Moulinier]] (IE2 CNRS) * [[Ngoc-Hoan Nguyen]] (post doc) * [[Frédéric Plewniak]] (IR2 CNRS) * [[Emmanuel Perrodou]] (post doc) * [[Olivier Poch]] (DR2 CNRS) * [[Laëtitia Poidevin]] (IE CDD) * [[Wolfgang Raffelsberger]] (postdoc) * [[Ravikiran Reddy]] (doctorant) * [[Raymond Ripp]] (IR1 CNRS) * [[Jean-Claude Thierry]] (DR1 CNRS) * [[Julie Thompson]] (IE2 CNRS) * [[Nicolas Wicker]] (MC2 ULP) eaecdff06facef166d07326457858cc92a086df3 1973 1972 2007-11-29T09:20:42Z Candel 10 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] (doctorant) * [[Radhouene Aniba]] (doctorant) * [[Yannick-Noël Anno]] (doctorant) * [[Guillaume Berthommier]] (IE 3A CDD) * [[Laurent Bianchetti]] (IR2 INSERM) * [[Yann Brélivet]] (thése) * [[Sophie Candel]] (IE 1B CDD) * [[Sophie Siguenza]] (IE 1B CDD) * [[Annaïck Carles]] (IE 3A CDD) * [[Anne Friederich]] (doctorant) * [[Nicolas Gagnière]] (doctorant) * [[Véronique Geoffroy]] (IE 3A GIE) * [[User:Dkieffer | David Kieffer]] (doctorant) * [[Odile Lecompte]] (MC2 ULP) * [[Luc Moulinier]] (IE2 CNRS) * [[Ngoc-Hoan Nguyen]] (post doc) * [[Frédéric Plewniak]] (IR2 CNRS) * [[Emmanuel Perrodou]] (post doc) * [[Olivier Poch]] (DR2 CNRS) * [[Laëtitia Poidevin]] (IE CDD) * [[Wolfgang Raffelsberger]] (postdoc) * [[Ravikiran Reddy]] (doctorant) * [[Raymond Ripp]] (IR1 CNRS) * [[Jean-Claude Thierry]] (DR1 CNRS) * [[Julie Thompson]] (IE2 CNRS) * [[Nicolas Wicker]] (MC2 ULP) 307629b130867a4eae855bf38686cb43f868bbc1 1976 1973 2007-11-29T09:21:40Z Candel 10 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] (doctorant) * [[Radhouene Aniba]] (doctorant) * [[Yannick-Noël Anno]] (doctorant) * [[Guillaume Berthommier]] (IE 3A CDD) * [[Laurent Bianchetti]] (IR2 INSERM) * [[Yann Brélivet]] (thése) * [[Sophie Siguenza]] (IE 1B CDD) * [[Annaïck Carles]] (IE 3A CDD) * [[Anne Friederich]] (doctorant) * [[Nicolas Gagnière]] (doctorant) * [[Véronique Geoffroy]] (IE 3A GIE) * [[User:Dkieffer | David Kieffer]] (doctorant) * [[Odile Lecompte]] (MC2 ULP) * [[Luc Moulinier]] (IE2 CNRS) * [[Ngoc-Hoan Nguyen]] (post doc) * [[Frédéric Plewniak]] (IR2 CNRS) * [[Emmanuel Perrodou]] (post doc) * [[Olivier Poch]] (DR2 CNRS) * [[Laëtitia Poidevin]] (IE CDD) * [[Wolfgang Raffelsberger]] (postdoc) * [[Ravikiran Reddy]] (doctorant) * [[Raymond Ripp]] (IR1 CNRS) * [[Jean-Claude Thierry]] (DR1 CNRS) * [[Julie Thompson]] (IE2 CNRS) * [[Nicolas Wicker]] (MC2 ULP) cd48e4d1335ccc08ba418786a1929a0d167a7bc9 Sophie Siguenza 0 1368 1974 2007-11-29T09:20:50Z Candel 10 New page: Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISS... wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V3.pdf Guide de Survie IBISSA] Octobre 2007 <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>Bon travail!!! ;o) d8ee694d17c06c27d07003c4551b4489c0ec2036 Sophie Candel 0 1337 1975 1907 2007-11-29T09:21:21Z Candel 10 Removing all content from page wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 IBISSA 0 1361 1983 1982 2007-11-29T09:49:07Z Candel 10 /* Créer un projet IBISSA sur Star */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br><br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> de9d26ea74a8b7e6794d0bd407bf6be3d159a24f 1984 1983 2007-11-29T09:49:31Z Candel 10 /* Créer un projet IBISSA sur Star */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> a1730d3be3cf5c69e7c18fbd3a8543224fea7b00 1998 1984 2007-12-04T07:17:35Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: <br> <pre> le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. </pre> <br> Pour plus de précision veuillez vous référer au Guide UIMA, chapitre 3.8 17e0dc74ac36ff7525122bd62add922ae956d6b8 1999 1998 2007-12-04T07:18:23Z Candel 10 /* PEAR: Processing Engine ARchiver */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: <br> le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.<br> le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.<br> le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.<br> <br> Pour plus de précision veuillez vous référer au Guide UIMA, chapitre 3.8 c2f8ef1fce5ca67cfad0ceb2d79a2ea9765c2fbd 2000 1999 2007-12-04T07:29:21Z Candel 10 /* PEAR: Processing Engine ARchiver */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: <br> le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.<br> le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.<br> le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.<br> <br> Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/ Guide UIMA], chapitre 3.8 8fd680d0da5003a5b355d3c49b17346395c37fe2 2001 2000 2007-12-04T07:30:09Z Candel 10 /* PEAR: Processing Engine ARchiver */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: <br> le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.<br> le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.<br> le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.<br> <br> Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools 666c3dea2cfdc56abc348e2350824a3e3ee15b4d 2002 2001 2007-12-04T07:41:40Z Gagniere 3 /* PEAR: Processing Engine ARchiver */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> <pre> Parameters AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ParaName (String, Nom du paramètre lui-même) ParaValue (String, Valeur du paramètre) Sequence FullSequences (String, la séquence formatée) ID (String, l'identifiant de la séquence) Comments (String, les commentaires associés à cette séquence) Code (String, le code de cette séquence) Kind (String, le type de séquence -rna, dna, ou proteic-) </pre> =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools a53e92d8e28a662a09cfcd9bfbfab02600b5b9d2 2003 2002 2007-12-04T07:44:01Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * Parameters ** AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ** ParaName (String, Nom du paramètre lui-même) ** ParaValue (String, Valeur du paramètre) * Sequence ** FullSequences (String, la séquence formatée) ** ID (String, l'identifiant de la séquence) ** Comments (String, les commentaires associés à cette séquence) ** Code (String, le code de cette séquence) ** Kind (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools cddc594c347c7323b1f618128887a03a02400bc3 2004 2003 2007-12-04T07:44:52Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * Parameters ** AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique) ** ParaName (String, Nom du paramètre lui-même) ** ParaValue (String, Valeur du paramètre) * Sequence ** FullSequence (String, la séquence formatée) ** ID (String, l'identifiant de la séquence) ** Comments (String, les commentaires associés à cette séquence) ** Code (String, le code de cette séquence) ** Kind (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools 6e0b364eeeddd99a497e6882b94a34666ba99663 2005 2004 2007-12-04T07:47:36Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools 2eda09f3839e4fb168434b0446f70db75ba430a5 2006 2005 2007-12-04T07:47:58Z Candel 10 /* PEAR: Processing Engine ARchiver */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le '''PEAR Installer''': Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools d844f307b0d69bf3ddf85157bf5f63498ea13d13 2007 2006 2007-12-04T07:53:29Z Candel 10 /* PEAR: Processing Engine ARchiver */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Dans le cadre du projet IBISSA, nous souhaitons mettre à disposition les components générés sous la forme de fichiers PEARs afin d'en faciliter le travail d'équipe.<br> <br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools 206187a1a1fadc51a28b5c909fcc56a68976ccb6 2008 2007 2007-12-04T08:14:39Z Candel 10 /* PEAR: Processing Engine ARchiver */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br> <br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools b0e7ba507b3898f2074ea2e49a09aec7ebd5a5a1 2009 2008 2007-12-04T09:01:06Z Candel 10 /* Types Existants */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Components disponibles= Analysis Engine <br> Collection Reader <br> ... =Types System Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br> <br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools 6fd4730dc882d83a67e0a2b3c947827675147117 2010 2009 2007-12-04T09:02:18Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Types System Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br> <br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools =Components disponibles= Analysis Engine <br> Collection Reader <br> ... 43c85e46c9da6fc21e750fc370218d9f150b04ec 2014 2010 2007-12-06T15:52:49Z Candel 10 wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par [[Frédéric Plewniak]] et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. =Types System Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br> <br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools =Components disponibles= Analysis Engine <br> Collection Reader <br> ... aff2e9ea77a1fe2d8e22207ccb12aa11682d09c7 2015 2014 2007-12-06T15:55:34Z Candel 10 /* Sources */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par [[Frédéric Plewniak]] et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], =Types System Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br> <br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools =Components disponibles= Analysis Engine <br> Collection Reader <br> ... 5dd5825abab61746aec23e1b3804c4aeae1f4619 2016 2015 2007-12-06T15:56:51Z Candel 10 /* Sources */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par [[Frédéric Plewniak]] et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie à UIMA dans le cadre d'IBISSA], =Types System Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br> <br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools =Components disponibles= Analysis Engine <br> Collection Reader <br> ... 813ad1984f6f79949efce04dd4dad9ce64789197 2017 2016 2007-12-06T15:57:26Z Candel 10 /* Sources */ wikitext text/x-wiki IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par [[Frédéric Plewniak]] et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique. =Créer un projet IBISSA sur Star= Désormais, Eclipse et UIMA sont installés en local sur les Star. <br> Rappel: Utilisez Star3,5,6,7 ou 8. <br> Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows: <br><br> ''>eclipse-uima'' <br><br> Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre. <br> Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java. <br><br> ''Window>>Open Perspective>>Java'' <br><br> Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME: <br><br> ''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New'' <br> ''Name: UIMA_HOME''<br> ''Value: /local/ibissa/apache-uima''<br> <br><br> Vous devez ensuite importer le projet "examples" dans Eclipse: <br><br> ''File>>Import>>General>>Existing Projects into Workspace>>'' <br><br> Sélectionnez le dossier ''/local/ibissa/apache-uima/examples'' <br> Attention: il faut activer la copie du projet sur votre espace de travail. <br> <br> Amusez-vous bien ;o) =Sources= [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie à UIMA dans le cadre d'IBISSA] <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation]. <br> =Types System Existants= Dans le cadre de BALLAST, des Types ont déjà été définis.<br> Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br> Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br> * '''Parameters''' ** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique) ** '''ParaName'''(String, Nom du paramètre lui-même) ** '''ParaValue''' (String, Valeur du paramètre) * '''Sequence''' ** '''FullSequence''' (String, la séquence formatée) ** '''ID''' (String, l'identifiant de la séquence) ** '''Comments''' (String, les commentaires associés à cette séquence) ** '''Code''' (String, le code de cette séquence) ** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-) =PEAR: Processing Engine ARchiver= Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br> Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br> <br> Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: * le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA. * le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant. * le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine. Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools =Components disponibles= Analysis Engine <br> Collection Reader <br> ... 26b4fc7ce8c582d288f7d46e7cd394410970e286 RReportGenerator English 0 1366 1985 1935 2007-11-29T13:32:12Z Wraff 5 wikitext text/x-wiki [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the information available with the analysis scenarios available through the www-library in RReportGenerator for further details. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks. Reference: <br>The program is published in : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, in press] <br>... voir cette page en Francais : [[RReportGenerator]] 6e1cb7c0740bf015498dde594da738742cbd74a7 1987 1985 2007-11-29T13:41:04Z Wraff 5 wikitext text/x-wiki [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the information available with the analysis scenarios available through the www-library in RReportGenerator for further details. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks. Reference: <br>The program is published in : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, in press] <br>... voir cette page en Francais : [[RReportGenerator]] 5a54187ead68860c319a6115739d17b59af53a3d RReportGenerator 0 1342 1986 1931 2007-11-29T13:38:58Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_English]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Référence: <br>Ce programme est publié dans : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, in press] 5e6ca973fc9860b9909bd12eed82594ac47689d6 2012 1986 2007-12-04T19:15:06Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_English]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Référence: <br>Ce programme est publié dans : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, in press] 9e818d6948cf32597c4f249b74e5470fc89e72dd ALEXSYS 0 1369 1988 2007-11-30T08:50:43Z Aniba 16 New page: == '''ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' == The last decade has provi... wikitext text/x-wiki == '''ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' == The last decade has provided access to a large amount of data resulting from high throughput genomic technologies, such as transcriptomics, proteomics or interactomics. This wealth of data now means that it is possible to perform detailed studies of the complex molecular networks implicated in the essential processes of life. A critical step in these studies is the comprehension of the evolutionary processes involved (duplication, loss, recombination), since they determine the sequence, structure and function of macromolecules, and finally, the biological complexity of organisms. As a consequence, comparative sequence analyses and phylogenetic inferences are increasingly important in biological systems studies and are indispensable in analyses of promoters, transcriptomes, proteomes and interactomes. Nevertheless, all these approaches are very sensitive to the algorithms used to compare the sequences, to reconstruct the evolutionary history of the genes, to identify important genetic events and to understand their consequences. In this context, the developments related to the construction and the effective analysis of a multiple alignment of complete sequences have, and will continue to have, a major effect on research connecting evolutionary models, adaptation or co-evolution to the comprehension of the networks in which the genes and their products play a fundamental role. The objective of this PhD project is to develop an integrated expert system to test, evaluate and optimize all the stages of the construction and the analysis of a multiple sequence alignment. The new system will be validated within the context of existing benchmark cases and the ‘International Regulome Consortium' project whose goal is to identify and characterize the complete set of transcription factors and their `regulome' (complex regulatory networks) within several murine stem cells. The work will rely on the developments already achieved in the laboratory related to the construction and the analysis of multiple alignments (Plewniak at al, 2003 Nucleic Acids Res 31,3829-3832; Thompson et al, 2006 BMC Bioinformatics 23,7-318). There exists today a large number of multiple alignment programs, based on very diverse algorithms. However, our recent studies have shown that none of these algorithms is able to provide a high quality multiple alignment for all possible conditions. Indeed, this work has established that the nature and the variability of the problems to be treated are extremely complex (errors in the sequences; divergent sequence lengths, modular organization, speed of evolution; presence of repeat sequences, transmembrane regions, circular permuations, etc) and that taking into account these various levels of complexity is essential to the realization of a multiple alignment of complete sequences (MACS) which is both accurate and reliable. It is clearly necessary to understand, not only the nature of the provided sequences but also, the strengths and weaknesses of the algorithms used, in order to obtain a high quality result in all alignment cases. Consequently, multiple sequence alignment methods must now evolve from a single isolated algorithm, towards an expert system, based on the co-operative application of different and complementary algorithms with a judicious use of additional knowledge (genomic, structural or functional). The expert system will incorporate diverse components, covering aspects of genomic and protein data mining, validation and integration of structural/functional data, integrated with a set of different algorithms ensuring the construction, the refinement, the analysis and the exploitation of multiple sequence alignments. The combination of these elements in an entirely automated platform will be necessary and will be achieved using object oriented technologies. A suitable integration will also require the development of dependency models and standard ontologies, in order to make the transfer of information between the various modules as transparent as possible. The modular design will also facilitate the incorporation of new algorithms and will allow its future evolution. An important element in the development of this system will be its ability to evaluate each module, not only at the level of its efficiency and its accuracy, but also depending on the type and the complexity of the biological data provided. The effective optimization of such a software network is primarily a process of investigation, which aimed at an in-depth comprehension of each module and its interactions with the various biological data types. This approach will require the incorporation of combinatorial, statistical and algorithmic concepts, with a continual biological validation of the results. This biological validation will be based on (i) `benchmarks' already developed in the laboratory (Thompson et al, 2005 Proteins 61:127 - 36) and (ii) a high throughput application concerning the study of the complete set of transcription factors, in collaboration with Dr. M. Andrade (Ottawa University, Canada), in the context of the International Regulome Consortium project. In the long term, this expert system should allow the construction, the validation, the visualization and the interpretation of a high quality MACS, a fundamental tool in many fields of molecular biology and essential to the comprehension of complex biological systems. 9e5cb650c6a2a504ebba03969639b343ac4693bd 1990 1988 2007-11-30T09:29:55Z Aniba 16 /* '''ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' */ wikitext text/x-wiki [[Image:Alexsys.png]] == ''' ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' == The last decade has provided access to a large amount of data resulting from high throughput genomic technologies, such as transcriptomics, proteomics or interactomics. This wealth of data now means that it is possible to perform detailed studies of the complex molecular networks implicated in the essential processes of life. A critical step in these studies is the comprehension of the evolutionary processes involved (duplication, loss, recombination), since they determine the sequence, structure and function of macromolecules, and finally, the biological complexity of organisms. As a consequence, comparative sequence analyses and phylogenetic inferences are increasingly important in biological systems studies and are indispensable in analyses of promoters, transcriptomes, proteomes and interactomes. Nevertheless, all these approaches are very sensitive to the algorithms used to compare the sequences, to reconstruct the evolutionary history of the genes, to identify important genetic events and to understand their consequences. In this context, the developments related to the construction and the effective analysis of a multiple alignment of complete sequences have, and will continue to have, a major effect on research connecting evolutionary models, adaptation or co-evolution to the comprehension of the networks in which the genes and their products play a fundamental role. The objective of this PhD project is to develop an integrated expert system to test, evaluate and optimize all the stages of the construction and the analysis of a multiple sequence alignment. The new system will be validated within the context of existing benchmark cases and the ‘International Regulome Consortium' project whose goal is to identify and characterize the complete set of transcription factors and their `regulome' (complex regulatory networks) within several murine stem cells. The work will rely on the developments already achieved in the laboratory related to the construction and the analysis of multiple alignments (Plewniak at al, 2003 Nucleic Acids Res 31,3829-3832; Thompson et al, 2006 BMC Bioinformatics 23,7-318). There exists today a large number of multiple alignment programs, based on very diverse algorithms. However, our recent studies have shown that none of these algorithms is able to provide a high quality multiple alignment for all possible conditions. Indeed, this work has established that the nature and the variability of the problems to be treated are extremely complex (errors in the sequences; divergent sequence lengths, modular organization, speed of evolution; presence of repeat sequences, transmembrane regions, circular permuations, etc) and that taking into account these various levels of complexity is essential to the realization of a multiple alignment of complete sequences (MACS) which is both accurate and reliable. It is clearly necessary to understand, not only the nature of the provided sequences but also, the strengths and weaknesses of the algorithms used, in order to obtain a high quality result in all alignment cases. Consequently, multiple sequence alignment methods must now evolve from a single isolated algorithm, towards an expert system, based on the co-operative application of different and complementary algorithms with a judicious use of additional knowledge (genomic, structural or functional). The expert system will incorporate diverse components, covering aspects of genomic and protein data mining, validation and integration of structural/functional data, integrated with a set of different algorithms ensuring the construction, the refinement, the analysis and the exploitation of multiple sequence alignments. The combination of these elements in an entirely automated platform will be necessary and will be achieved using object oriented technologies. A suitable integration will also require the development of dependency models and standard ontologies, in order to make the transfer of information between the various modules as transparent as possible. The modular design will also facilitate the incorporation of new algorithms and will allow its future evolution. An important element in the development of this system will be its ability to evaluate each module, not only at the level of its efficiency and its accuracy, but also depending on the type and the complexity of the biological data provided. The effective optimization of such a software network is primarily a process of investigation, which aimed at an in-depth comprehension of each module and its interactions with the various biological data types. This approach will require the incorporation of combinatorial, statistical and algorithmic concepts, with a continual biological validation of the results. This biological validation will be based on (i) `benchmarks' already developed in the laboratory (Thompson et al, 2005 Proteins 61:127 - 36) and (ii) a high throughput application concerning the study of the complete set of transcription factors, in collaboration with Dr. M. Andrade (Ottawa University, Canada), in the context of the International Regulome Consortium project. In the long term, this expert system should allow the construction, the validation, the visualization and the interpretation of a high quality MACS, a fundamental tool in many fields of molecular biology and essential to the comprehension of complex biological systems. [[Media:[[Media:Example.ogg]]]] 193fe8ee4b1be79e6079011595f5d0d1778cb639 1994 1990 2007-12-02T11:41:02Z Aniba 16 /* ''' ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' */ wikitext text/x-wiki [[Image:Alexsys.png]] == ''' ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' == The last decade has provided access to a large amount of data resulting from high throughput genomic technologies, such as transcriptomics, proteomics or interactomics. This wealth of data now means that it is possible to perform detailed studies of the complex molecular networks implicated in the essential processes of life. A critical step in these studies is the comprehension of the evolutionary processes involved (duplication, loss, recombination), since they determine the sequence, structure and function of macromolecules, and finally, the biological complexity of organisms. As a consequence, comparative sequence analyses and phylogenetic inferences are increasingly important in biological systems studies and are indispensable in analyses of promoters, transcriptomes, proteomes and interactomes. Nevertheless, all these approaches are very sensitive to the algorithms used to compare the sequences, to reconstruct the evolutionary history of the genes, to identify important genetic events and to understand their consequences. In this context, the developments related to the construction and the effective analysis of a multiple alignment of complete sequences have, and will continue to have, a major effect on research connecting evolutionary models, adaptation or co-evolution to the comprehension of the networks in which the genes and their products play a fundamental role. The objective of this PhD project is to develop an integrated expert system to test, evaluate and optimize all the stages of the construction and the analysis of a multiple sequence alignment. The new system will be validated within the context of existing benchmark cases and the ‘International Regulome Consortium' project whose goal is to identify and characterize the complete set of transcription factors and their `regulome' (complex regulatory networks) within several murine stem cells. The work will rely on the developments already achieved in the laboratory related to the construction and the analysis of multiple alignments (Plewniak at al, 2003 Nucleic Acids Res 31,3829-3832; Thompson et al, 2006 BMC Bioinformatics 23,7-318). There exists today a large number of multiple alignment programs, based on very diverse algorithms. However, our recent studies have shown that none of these algorithms is able to provide a high quality multiple alignment for all possible conditions. Indeed, this work has established that the nature and the variability of the problems to be treated are extremely complex (errors in the sequences; divergent sequence lengths, modular organization, speed of evolution; presence of repeat sequences, transmembrane regions, circular permuations, etc) and that taking into account these various levels of complexity is essential to the realization of a multiple alignment of complete sequences (MACS) which is both accurate and reliable. It is clearly necessary to understand, not only the nature of the provided sequences but also, the strengths and weaknesses of the algorithms used, in order to obtain a high quality result in all alignment cases. Consequently, multiple sequence alignment methods must now evolve from a single isolated algorithm, towards an expert system, based on the co-operative application of different and complementary algorithms with a judicious use of additional knowledge (genomic, structural or functional). The expert system will incorporate diverse components, covering aspects of genomic and protein data mining, validation and integration of structural/functional data, integrated with a set of different algorithms ensuring the construction, the refinement, the analysis and the exploitation of multiple sequence alignments. The combination of these elements in an entirely automated platform will be necessary and will be achieved using object oriented technologies. A suitable integration will also require the development of dependency models and standard ontologies, in order to make the transfer of information between the various modules as transparent as possible. The modular design will also facilitate the incorporation of new algorithms and will allow its future evolution. An important element in the development of this system will be its ability to evaluate each module, not only at the level of its efficiency and its accuracy, but also depending on the type and the complexity of the biological data provided. The effective optimization of such a software network is primarily a process of investigation, which aimed at an in-depth comprehension of each module and its interactions with the various biological data types. This approach will require the incorporation of combinatorial, statistical and algorithmic concepts, with a continual biological validation of the results. This biological validation will be based on (i) `benchmarks' already developed in the laboratory (Thompson et al, 2005 Proteins 61:127 - 36) and (ii) a high throughput application concerning the study of the complete set of transcription factors, in collaboration with Dr. M. Andrade (Ottawa University, Canada), in the context of the International Regulome Consortium project. In the long term, this expert system should allow the construction, the validation, the visualization and the interpretation of a high quality MACS, a fundamental tool in many fields of molecular biology and essential to the comprehension of complex biological systems. 8f42c95c5cd00bbf9726f12c3a1209e131e8eca0 File:Alexsys.png 6 1370 1989 2007-11-30T09:26:44Z Aniba 16 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 Dbgs 0 1356 1991 1879 2007-11-30T15:39:30Z Ripp 1 wikitext text/x-wiki DBGS : Département de Biologie et de Génomique Structurales de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est composé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]] Il est dirigé par [[Patrick Schultz]] ==Abréviations== DBGS, MEM, LBGI, ... voir [[Abréviations]] ==Réunion Labo== ==Links== See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site] 57e84f428f71f1f22b2927121600eb7f44496093 1992 1991 2007-11-30T15:41:21Z Ripp 1 wikitext text/x-wiki DBGS : Département de Biologie et de Génomique Structurales de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est composé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]] Il est dirigé par [[Patrick Schultz]] ==Abréviations== DBGS, MEM, LBGI, ... voir [[Abréviations]] ==Links== See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site] 107288adecbe65f943b033f8f01a76d258208f1a Luc Moulinier 0 1371 1993 2007-11-30T16:22:27Z Moumou 17 New page: Bonjour c'est moi ! J'ai ete engendre par Laetitia et ca a ete un dur travail ..... wikitext text/x-wiki Bonjour c'est moi ! J'ai ete engendre par Laetitia et ca a ete un dur travail ..... 6479248064673d28ccb0576ba777b66cc68f9c88 Sophie Siguenza 0 1368 1995 1974 2007-12-03T15:37:39Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie IBISSA] Décembre 2007 <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>Bon travail!!! ;o) 29e3555f14e6c7625dd21f1fb7cb5ccf79c0eb93 1996 1995 2007-12-03T15:40:01Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie IBISSA] Décembre 2007, NOUVEAU: 3.8 UIMA PEAR Tools <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>Bon travail!!! ;o) f8144093880bd1519de699c18e85a2dcb8643f5a 1997 1996 2007-12-03T15:40:22Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie IBISSA] Décembre 2007, Nouveau paragraphe: 3.8 UIMA PEAR Tools <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>Bon travail!!! ;o) eddf43af131edddb8c2e5e93612174a422549ec8 2013 1997 2007-12-06T15:52:05Z Candel 10 wikitext text/x-wiki Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie IBISSA] Décembre 2007, Nouveau paragraphe: 3.8 UIMA PEAR Tools <br> <br> Lien vers le projet [http://alnitak.u-strasbg.fr/wikili/index.php/IBISSA IBISSA] <br> <br> Quelques liens utiles pour UIMA: <br> SDK UIMA [http://incubator.apache.org/uima/ UIMA chez Apache!!! ] [http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0] [http://uima-framework.sourceforge.net/ Les sources d'UIMA] [http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA] [http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque] Et bien sûr, si vous voulez installer UIMA: [http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e] [http://www.eclipse.org/downloads/ Télécharger Eclipse] [http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK] [http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA] <br>Bon travail!!! ;o) 171c749472da26163894bf4b5c5f7bb68e891f19 R 0 1320 2011 1921 2007-12-04T19:09:27Z Wraff 5 /* Librairies */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br> L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.5.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 195d8ad3c95b6f3f56bd7cfb8836ad32a29284e8 Unix 0 1312 2018 1735 2007-12-10T10:03:10Z Dkieffer 2 /* Manipulation des fichiers et des répertoires */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |which nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst qui pointe vers le contenu de nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |<nowiki>commande_1 | commande_2 </nowiki> |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |id |Donne des informations sur l'identité de l'utilisateur courant. |- |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =Script bash= [http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite] =sources= Initiation à la bioinformatique O'Reilly e56192f6bc5dc2898e4cc6bfa574adc00a6f66fd Cluspack 0 1353 2019 1820 2007-12-11T10:00:19Z Wraff 5 wikitext text/x-wiki Cluspack permet de lancer un clustering en k-means ou en mixture-models. <br> Plus de details sont sur le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] '''Input format''': Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br> La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin) '''Utilisation''' : En ligne de commande (avec tous arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kMeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 '''Attention''' : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !! dff219779fb349ca8cc3fbb2525f16c2865a765d Fed 0 1286 2020 1732 2008-01-01T13:52:37Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * people * worpackages * components * centres and * a Gallery of documents The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then sspecially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales 5de8517c2dab787ea1e4d69c42689030c33f1e22 2021 2020 2008-01-01T13:57:25Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * people * worpackages * components * centres and * a Gallery of documents and * Thematics (or Projects) The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then sspecially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales 247776226964e7b70b760d1fdf1daedd2e165b7a 2022 2021 2008-01-01T14:02:37Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * Teams ** people ** workpackages ** components ** centres * Data ** within a Gallery of documents ** or in a Relational Database * Thematics (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales 06ff40c4c1c406488b81ae321ac73b9feea31e41 2023 2022 2008-01-01T14:04:19Z Ripp 1 wikitext text/x-wiki Fed : '''Fe'''derating '''d'''ata ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales a60ebf38e1e17ed3bd9b5069661905363e329902 2024 2023 2008-01-01T14:21:38Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata written by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales f3402b6f3485ddf27478ba10c180f10509cd0fe5 2025 2024 2008-01-01T14:24:12Z Ripp 1 wikitext text/x-wiki == '''Fed''' : '''Fe'''derating '''d'''ata == written by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales a99ad5715b23d34959c84a2ca16d7c498fc937fb 2026 2025 2008-01-01T14:25:00Z Ripp 1 wikitext text/x-wiki == '''Fed''' : '''Fe'''derating '''d'''ata == written by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales 15117585bdbed3dd57820f40abe0b90670ab2fa6 2027 2026 2008-01-01T14:26:02Z Ripp 1 wikitext text/x-wiki =='''Fed''' : '''Fe'''derating '''d'''ata== written by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales 77823219dfa1ecd4700e231439e823b75eff5a7e 2028 2027 2008-01-01T14:26:54Z Ripp 1 wikitext text/x-wiki ='''Fed''' : '''Fe'''derating '''d'''ata= written by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales 8bb3b01b16a00e131ca2573d97abbb220bad4db6 2029 2028 2008-01-01T14:27:22Z Ripp 1 wikitext text/x-wiki ==='''Fed''' : '''Fe'''derating '''d'''ata=== written by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales 8147ed6fa1d6a8174f22ede40314b783566328ab 2030 2029 2008-01-01T14:28:24Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; written by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales 036c0a6f8e2ef5f1dc580c5f920b28e257eb26d7 2031 2030 2008-01-01T14:29:47Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales 19f32b9e1d5528d29899dfd032491c616acae5d2 Main Page 0 1279 2032 1807 2008-01-01T14:38:42Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Pour une liste plus à jour voir [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Les Thématiques du BLGI] et visitez le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] e55de04a597dcd2f0100a89ba79019b18648676a Main Page 0 1279 2033 2032 2008-01-01T14:40:39Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du BLGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 83e3137a28a72ecad279e14dd2be38f97d5efaeb 2034 2033 2008-01-01T14:41:16Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] b3418bc511794ea256da8c119f3a1602b485acaa Abbreviations 0 1359 2035 1887 2008-01-02T13:16:16Z Ripp 1 wikitext text/x-wiki <pre> BIPS BioInformatic Platform Strasbourg CIMC Catalyse et Inhibition : Méthodologie Cristallographique DBGS Département de Biologie et de Génomique Structurales LBGI Laboratoire de Bioinformatique et de Génomique Structurales LBCMM BioCristallographie et Modélisation Moléculaire LEIG Expression de l'Information Génétique MEM Microscopie Electronique Moleculaire MM Modelisation Moléculaire PBGS Plateforme Biologie et Génomique Structurales RMNB Résonnance Magnétique Nucléaire Biomoléculaire SFPC Structure and Function of Protein Complexes SNR Steroid Nuclear Receptor SRC Signalisations et Réponses Cellulaires Alexsys Alignment Expert System CGHNR Comparative Genomics on Human Nuclear Receptors EvolHHuPro Evolution Histories of Human Proteome IBISSA Intelligent Bioinformatics Solution Softwaare Achitecture MyoNet Myogenesys Network </pre> f1714f842a5aaece8699e8abd14af2e4a310b8ce Fed 0 1286 2036 2031 2008-01-02T13:21:26Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales a0a26214efe34dfc30117607947fb7f4c1664f45 Fed Web Architecture 0 1372 2037 2008-01-02T13:29:05Z Ripp 1 New page: ==Main purpose of Fed== [[Fed]] allows to manage through a Web Interface * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** o... wikitext text/x-wiki ==Main purpose of Fed== [[Fed]] allows to manage through a Web Interface * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database ==General Organisation== The most important is to distinguish * the '''data''' ** in the Relational Database ** in Galleries ** in the Website * the '''Web Interface''' ** Menu ** Links ** Special pages ** Display tools e07f18882f9048bab2a422d6f1709b5c5845918c 2038 2037 2008-01-02T13:30:39Z Ripp 1 wikitext text/x-wiki ==Main purpose of Fed== [[Fed]] allows to manage through a Web Interface * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database ==General Organisation== The most important is to distinguish * the '''data''' ** in the Relational Database ** in Galleries ** in the Website * the '''Web Interface''' ** Menu ** Links ** Special pages ** Navigation tools *** within the menus *** within the galleries ab2d09135f93cb9b7ddbc3e50d346b7881c943f1 2039 2038 2008-01-02T13:32:00Z Ripp 1 wikitext text/x-wiki ==Main purpose of Fed== [[Fed]] allows to manage through a Web Interface * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database ==General Organisation== The most important is to distinguish * the '''Data''' ** in the Relational Database ** in Galleries ** in the Website * the '''Web Interface''' ** Menu ** Links ** Special pages ** Navigation tools *** within the menus *** within the galleries 643b2e9b4c52addd849d9470dfb58c65136afd4a Yannick-Noël Anno 0 1336 2040 1904 2008-01-08T21:01:29Z Yannick-Noel 6 /* Utilitaires */ wikitext text/x-wiki == Parcours == * 1979-1979: Naissance, 3,250 kgs * (...) * 2000-2001: Maitrise de Biologie Cellulaire & Physiologie * 2001-2005: Informaticien * 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007) * 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes) == Thèmatique de recherche == Localisation des sites de fixation de facteurs de transcription (TFBS) 81bbacca32fd727db90faa090b0aa201ba0b0030 2041 2040 2008-01-08T21:02:39Z Yannick-Noel 6 wikitext text/x-wiki == Parcours == * 1979-1979: Naissance, 3,250 kgs * (...) * 2000-2001: Maitrise de Biologie Cellulaire & Physiologie * 2001-2005: Informaticien * 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007) * 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes) == Thèmatique de recherche == Localisation des sites de fixation de facteurs de transcription (TFBS) == Utilitaires == 488ab9e2631cec640babf79707b240c664768f49 Java 0 1293 2042 1899 2008-01-09T08:55:23Z Dkieffer 2 wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]] A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java . ==Projets internes liés à Java== *[[IBISSA]] *[[BIRD]] *[[JMacs]] *[[JavOO]] ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <?xml version="1.0" encoding="UTF-8" ?> - <rsf> - <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> - <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] [[Category:Programmation]] 45f02d6ced4bc3850b05f60abfd52da46d3b9e8a Category:Programmation 14 1373 2043 2008-01-09T08:56:51Z Dkieffer 2 New page: Articles relatifs au techniques de programmations du labo. wikitext text/x-wiki Articles relatifs au techniques de programmations du labo. 339a41058bd664c584bf1d10265f4a67beb789c3 R 0 1320 2044 2011 2008-01-10T11:26:04Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.6.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jan 08).<br> L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.6.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 3ea9d8f634e1a51445a512a0b0babddc0056e944 2045 2044 2008-01-10T11:35:03Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.6.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jan 08).<br> L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R". Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.6.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 7e3dc2dc7948bb7a7687481258c8c72fa4600b5e 2072 2045 2008-02-04T12:08:31Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.6.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jan 08).<br> L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() . Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.6.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 3db82c1412a443b37c26faedf272b49c4a70200d 2080 2072 2008-02-12T15:50:18Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.6.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jan 08).<br> L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() . Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.6.1 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 51774d3fc4b69ea8743050dda28a5771f92044da Wolfgang Raffelsberger 0 1339 2046 1715 2008-01-11T12:21:28Z Wraff 5 wikitext text/x-wiki Bonjour, see also my site / voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff] Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives ([[LBGI]]), du Départment de Biologie et Génomique Structurales ([[DBGS]]), de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]). <br> I am member of the BioInformatique et Génomique Intégratives ([[LBGI]]), Department of Structural Biology and Genomics ([[DBGS]]), at the Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]). <br> General Research Interest : Bioanalysis, BioInformatics, Biostatistics <br> Specialization : Transcriptomics, CGH, Functional Genomics, Data Mining e-mail : [mailto:wolfgang.raffelsberger@igbmc.u-strasbg.fr wolfgang.raffelsberger@igbmc.u-strasbg.fr] b6a1eea0ef04403d418b94c659129b5dfc1094d7 2071 2046 2008-02-04T11:20:40Z Wraff 5 wikitext text/x-wiki Bonjour, please see my site / voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff] I am member of the BioInformatique et Génomique Intégratives ([[LBGI]]), Department of Structural Biology and Genomics ([[DBGS]]), at the Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]). <br> Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives ([[LBGI]]), du Départment de Biologie et Génomique Structurales ([[DBGS]]), de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]). <br> General Research Interest : Bioanalysis, BioInformatics, Biostatistics <br> Specialization : Transcriptomics, CGH, Functional Genomics, Data Mining e-mail : [mailto:wolfgang.raffelsberger@igbmc.u-strasbg.fr wolfgang.raffelsberger@igbmc.u-strasbg.fr] 1c44a4cc638911df5a882dc2d24999d3f7d26cc5 File:Alexsys.jpg 6 1374 2047 2008-01-14T09:24:14Z Aniba 16 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Alexsys2.png 6 1375 2048 2008-01-14T10:05:37Z Aniba 16 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 User:Bedez 2 1376 2049 2008-01-17T19:13:06Z Bedez 18 New page: Florence Bedez wikitext text/x-wiki Florence Bedez 53ff1dc241a9b621c7fe0b821d519a164e439a51 Membres du LBGI 0 1333 2050 1976 2008-01-17T19:15:44Z Bedez 18 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] (doctorant) * [[Radhouene Aniba]] (doctorant) * [[Yannick-Noël Anno]] (doctorant) * [[Guillaume Berthommier]] (IE 3A CDD) * [[Laurent Bianchetti]] (IR2 INSERM) * [[Yann Brélivet]] (thése) * [[Sophie Siguenza]] (IE 1B CDD) * [[Annaïck Carles]] (IE 3A CDD) * [[Anne Friederich]] (doctorant) * [[Nicolas Gagnière]] (doctorant) * [[User:bedez | Florence Bedez]] (doctorant) * [[Véronique Geoffroy]] (IE 3A GIE) * [[User:Dkieffer | David Kieffer]] (doctorant) * [[Odile Lecompte]] (MC2 ULP) * [[Luc Moulinier]] (IE2 CNRS) * [[Ngoc-Hoan Nguyen]] (post doc) * [[Frédéric Plewniak]] (IR2 CNRS) * [[Emmanuel Perrodou]] (post doc) * [[Olivier Poch]] (DR2 CNRS) * [[Laëtitia Poidevin]] (IE CDD) * [[Wolfgang Raffelsberger]] (postdoc) * [[Ravikiran Reddy]] (doctorant) * [[Raymond Ripp]] (IR1 CNRS) * [[Jean-Claude Thierry]] (DR1 CNRS) * [[Julie Thompson]] (IE2 CNRS) * [[Nicolas Wicker]] (MC2 ULP) 82bee3ff57d3c0f56634ebb7c277979a4986cacd User:Dkieffer 2 1305 2051 1628 2008-01-18T16:44:49Z Dkieffer 2 /* liens */ wikitext text/x-wiki =Mon parcours au LBGI= Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker. Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker. =Ingénieur chez Genclis= Ingénieur d'étude depuis 2007 à Genclis Nancy. =Travaux= ==Journal Club== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_13_03_07/ Journal Club du 13 mars 2007] =liens= [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/ Mes pages pros.] [https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Ma page confidentielle.] dff83e0cc6cdd1e4dd611facdf9c938b7e29f8a7 2052 2051 2008-01-18T16:45:59Z Dkieffer 2 wikitext text/x-wiki =Mon parcours au LBGI= Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker. Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker. =Ingénieur chez Genclis= Ingénieur d'étude depuis 2007 à Genclis Nancy. =Travaux= ==Journal Club== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_13_03_07/ Journal Club du 13 mars 2007] [https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Autres sur ma page confidentielle.] =liens= [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/ Mes pages pros.] [https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Ma page confidentielle.] 7bddfd90044ec1c0e584a1b6752483e36e82846b 2053 2052 2008-01-18T16:54:38Z Dkieffer 2 /* Journal Club */ wikitext text/x-wiki =Mon parcours au LBGI= Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker. Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker. =Ingénieur chez Genclis= Ingénieur d'étude depuis 2007 à Genclis Nancy. =Travaux= ==Journal Club== [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_13_03_07/ Journal Club du 13 mars 2007] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_18_12_07.pdf/ Journal Club du 18 décembre 2007] [https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Autres sur ma page confidentielle.] =liens= [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/ Mes pages pros.] [https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Ma page confidentielle.] 83438cfbe982974239caa3ba107f1f456836933f RReportGenerator English 0 1366 2054 1987 2008-01-21T11:44:52Z Wraff 5 wikitext text/x-wiki [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user inferface (GUI). <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks. Reference: <br>The program is published and accessible as open access : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br> ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278] <br>... voir cette page en Francais : [[RReportGenerator]] 89321a29f5f0d3a56efee3cd5b5b53fdc9aff8ba 2056 2054 2008-02-01T10:53:21Z Wraff 5 wikitext text/x-wiki [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user inferface (GUI). <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks. Reference: <br>The program is published and accessible as open access : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br> ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278] Limitations:<br> The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases. In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br> Physical/compoutatinal limitations:<br> Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development. <br>... voir cette page en Francais : [[RReportGenerator]] e01cdaa7eb9219d1b5cd59208a71dd7d30a1b02d RReportGenerator 0 1342 2055 2012 2008-01-21T11:48:49Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_English]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Référence: <br>Ce programme est publié et accessible "open access" dans : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278] 38206620ffdb26a20652843d2fbdfc631635ebbf BIRD 0 1313 2057 1945 2008-02-01T15:13:58Z Nguyen 15 /* BIRD */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== Le [[Bird Website]] de Hoan BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). Le site [http://www.decrypthon.fr Decrypthon] Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc] ==BIRD Miner== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 4c0d9bdf264aaf85953688072dc913824612a6e0 2058 2057 2008-02-01T15:17:19Z Nguyen 15 /* What is BIRD System */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. web: [http://www.decrypthon.fr Decrypthon] ==BIRD Miner== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 98adf2b6b4f345702e571812503ebc746ce8c568 2059 2058 2008-02-01T15:21:39Z Nguyen 15 /* What is BIRD System */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Web: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] : [http://bird.u-strasbg.fr:/BirdSystem/HomePage.do] ==BIRD Miner== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' '''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète ''' Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope La suite est à confirmer par un bon vieux '''[[oue]]''' * les procédures qui font appel au web service : ** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz ** proc '''BirdGet''' {NM field} rend simplement la valeur du champ * proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java ** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes] * proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}} ** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option * proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option * proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}} ** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode 789c0ce57f74c7e9989806cc3a1d66e1f4ccd5c1 2060 2059 2008-02-01T15:22:32Z Nguyen 15 /* Gscope utilise BIRD */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Web: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] : [http://bird.u-strasbg.fr:/BirdSystem/HomePage.do] ==BIRD Miner== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 61d7fd39727b5980546cc06fa44690aa351ae694 2061 2060 2008-02-01T15:27:40Z Nguyen 15 /* What is BIRD System */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]] ==BIRD Miner== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 67e301c846ffa5f4c5a0474c8c27604ec06ca80e 2062 2061 2008-02-01T15:37:34Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ca5e9bed105ac100059830ae3a3eb16c5ada0133 2063 2062 2008-02-01T15:39:12Z Nguyen 15 /* BIRD-QL Query Language */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n … WH PATTERN <function SequencePattern() > WH PATTERN <function StructuralDistance()> WH PATTERN <function …. () ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 7baae5c6bf85fa8213f69e2c46e3bce5320acf93 2064 2063 2008-02-01T15:41:16Z Nguyen 15 /* BIRD-QL Query Language */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n … WH PATTERN <function SequencePattern() > WH PATTERN <function StructuralDistance()> WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' e360c48cd6400d9a9f2b96cff11780d6c5c3ce8e 2065 2064 2008-02-01T15:43:13Z Nguyen 15 /* BIRD-QL Query Language */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 5777e57e81512ed7579868f2ec80412d02e94072 2066 2065 2008-02-01T15:44:11Z Nguyen 15 /* BIRD-QL Query Language */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 3da6c2a9aa547a2a584cced49b9b81144d09603c 2067 2066 2008-02-01T15:45:35Z Nguyen 15 /* BIRD-QL Query Language */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' adbd220569335448763cb185ac55880668a26c96 2068 2067 2008-02-01T15:48:47Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' e5c40ac848c4ec8d202077d7bac1bd1c9be68025 2069 2068 2008-02-01T15:54:36Z Nguyen 15 /* What is BIRD System */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 5535662c476a1cd4e09ae3c03ce0986f9ae84591 2070 2069 2008-02-01T15:55:06Z Nguyen 15 /* What is BIRD System */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 4e54b3f2c4f41936e855dfde4d5e3d31cace68b7 2073 2070 2008-02-12T14:20:57Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen (CORIA 2008, Hermes Edition)]] ==What is BIRD System== BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 04f816e86c0f9059cbca824af0ed074c886fc04b 2074 2073 2008-02-12T14:23:02Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' d2c2a3254291d207f7d6123caa38af8962b926e7 2075 2074 2008-02-12T15:20:55Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Biological Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' b9263122b05a8f1577bbedfd5561734527968fa3 2076 2075 2008-02-12T15:30:23Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRD-QL Biological Query Language == BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...) BIRD Grammar ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 7f7546e81af25de4653b1b95faeed9a23a3ddc5c 2077 2076 2008-02-12T15:47:08Z Nguyen 15 /* BIRD-QL Biological Query Language */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==Macsim utilise BIRD== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ==Gscope utilise BIRD== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' cbe24c40cfd896b447ce5ed3c43ad7318a03451f 2081 2077 2008-02-12T15:52:46Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation === ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' d8aef4bbc1cbdbfa8c98ffec97ddd703565e32db GEO Affymetrix GPL 0 1377 2078 2008-02-12T15:47:20Z Wraff 5 New page: GEO GPL-platform IDs for Affymetrix arrays: human 3'expression arrays : GPL 96 : U133A GPL 97 : U133B GPL 80 : HuGeneFL GPL 570 : U133p2 GLP 4454: U133p2, with Brainarray custom cdf (ref... wikitext text/x-wiki GEO GPL-platform IDs for Affymetrix arrays: human 3'expression arrays : GPL 96 : U133A GPL 97 : U133B GPL 80 : HuGeneFL GPL 570 : U133p2 GLP 4454: U133p2, with Brainarray custom cdf (refSeq6) GLP 5760: U133p2, with Brainarray custom cdf (curated genomic) GLP 4866: U133p2, with BMNI custom cdf mouse 3'expression arrays : GPL 339 : MOE 430A (2.0) GPL 1261 : 430.2 01e80c14f5fdbbe39f0994b97a79ea36a975ca43 2079 2078 2008-02-12T15:48:12Z Wraff 5 wikitext text/x-wiki GEO GPL-platform IDs for Affymetrix arrays: human 3'expression arrays : <br> GPL 96 : U133A <br> GPL 97 : U133B <br> GPL 80 : HuGeneFL <br> GPL 570 : U133p2 <br> GLP 4454: U133p2, with Brainarray custom cdf (refSeq6) <br> GLP 5760: U133p2, with Brainarray custom cdf (curated genomic) <br> GLP 4866: U133p2, with BMNI custom cdf <br> mouse 3'expression arrays : <br> GPL 339 : MOE 430A (2.0) <br> GPL 1261 : 430.2 <br> dee97c531e79cf14e863339be3fb0cb9d030d556 2082 2079 2008-02-12T15:52:47Z Wraff 5 wikitext text/x-wiki GEO GPL-platform IDs for Affymetrix arrays: * human 3'expression arrays : <br> GPL 96 : U133A <br> GPL 97 : U133B <br> GPL 80 : HuGeneFL <br> GPL 570 : U133p2 <br> GLP 4454: U133p2, with Brainarray custom cdf (refSeq6) <br> GLP 5760: U133p2, with Brainarray custom cdf (curated genomic) <br> GLP 4866: U133p2, with BMNI custom cdf <br> * mouse 3'expression arrays : <br> GPL 339 : MOE 430A (2.0) <br> GPL 1261 : 430.2 <br> bacb93dea2a0b8452db78c8f7c2bf2be1a014143 BIRD 0 1313 2083 2081 2008-02-12T15:55:00Z Nguyen 15 /* Decrypthon Data Center Implementation */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ffc05ca0390fe36e3dc04224636f3a9d0f029629 2084 2083 2008-02-12T15:56:20Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratoire (IGBMC Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 0a9591b3478208d28e4f9501739b76bb7d9bc2ad 2085 2084 2008-02-12T15:57:19Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratoire ([IGBMC] Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 3ce87770a2ad3a4222fcb25c4eaef2455eb3c80d 2086 2085 2008-02-12T15:57:49Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD Miner Intelligent== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' bf7cb388f6b1585f1c37c0e26dff521b43908677 2087 2086 2008-02-12T16:06:27Z Nguyen 15 /* BIRD Miner Intelligent */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== WEB Server BIRD-QL Service API JAVA & SQL Native ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 9b9cbd958a10e7b8eba42409070ff56e15425f32 2088 2087 2008-02-12T16:20:56Z Nguyen 15 /* DATA ACCESS */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. 2 query service are available: 1. BIRD-QL Editor to run BIRD-QL queries. 2. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 3. ===Simple Service=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' bf311b70949fb6ce0778327074a84838c41e39a6 2089 2088 2008-02-12T16:21:45Z Nguyen 15 /* Data Browsing */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. 2 query service are available: 1. BIRD-QL Editor to run BIRD-QL queries. 2. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 3. ===Simple Service=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 6e1f5a2a252b76313cdc004a7d9d19da3ca72c59 2090 2089 2008-02-12T16:22:36Z Nguyen 15 wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. 2 query service are available: 1. BIRD-QL Editor to run BIRD-QL queries. 2. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 3. ===Simple Service=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 18fa2b7714be150cd17ce052484b3668f7071166 2091 2090 2008-02-12T16:26:55Z Nguyen 15 /* DATA ACCESS (Decrypthon) */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 28dfad5653118dd7f072a487374f72631b52187d 2092 2091 2008-02-12T16:28:01Z Nguyen 15 /* DATA ACCESS (Decrypthon) */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon Data Center)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 90bbdc4574ef8940ad0d0eb2f109ee6d6cb4bf2e 2093 2092 2008-02-12T16:28:26Z Nguyen 15 /* Decrypthon Data Center Implementation */ wikitext text/x-wiki BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon Data Center)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 826861a31634999d95b780584397a522d7501804 2094 2093 2008-02-12T16:30:15Z Nguyen 15 wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon Data Center)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 3d55741fad64899628688d4892c3a8a2a34c9472 2095 2094 2008-02-12T16:31:31Z Nguyen 15 /* DATABASES List */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon Data Center)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 2de6b4720d165ab13a71cfefc07d0eb845a891eb 2096 2095 2008-02-12T16:32:14Z Nguyen 15 /* BIRDQL Grammar */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH [Field] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon Data Center)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 291a7040711b81c79c0295068a476f2be57f13c6 2097 2096 2008-02-12T16:33:33Z Nguyen 15 /* BIRDQL Grammar */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS (Decrypthon Data Center)== ===Data Browsing=== Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 4f1e30689681d3f2a436ea54b3f39b654dffc959 2098 2097 2008-02-12T16:39:12Z Nguyen 15 /* DATA ACCESS (Decrypthon Data Center) */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 5f92f7769560c5f88549f6dc7b7b82e75c6cbb85 2099 2098 2008-02-12T16:42:01Z Nguyen 15 /* What is BIRD System */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources (Hernandez and Kambhampati, 2004). Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' a71e335f5f2d1e5ba4220b139228e68ae2eef8e2 2100 2099 2008-02-12T16:42:56Z Nguyen 15 /* Scientific Context */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 30f0fbfaa8ab295e62032d734a958c4735624b0a 2101 2100 2008-02-12T16:43:41Z Nguyen 15 /* What is BIRD System */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' cd9371df161732fea4e463729be2cf8cce29abce 2102 2101 2008-02-12T16:44:40Z Nguyen 15 /* What is BIRD System */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' dc68fa98ba5acac15011633963d6bb4b9f8b42bd 2103 2102 2008-02-12T16:45:15Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' a5a1f5805d3ae720d414cd4bfd59d07eb07e8590 2104 2103 2008-02-12T16:48:03Z Nguyen 15 /* Simple Services */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Service Adress: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=<ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2. get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 8f9389757de361f43effd2381394dadd8e93e3fa 2105 2104 2008-02-12T16:48:40Z Nguyen 15 /* Simple Services */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Service Adress: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=<ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2. get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta WEB Server ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' d89e442ee93135acbb4ace8a2df1f74ded1da74b 2106 2105 2008-02-12T16:49:25Z Nguyen 15 /* DATA ACCESS */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Service Adress: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=<ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2. get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' b8b6404235238211b4ee6e20b810401f537f2945 2107 2106 2008-02-12T20:05:02Z Nguyen 15 /* Simple Services */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Service Adress: http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id> & field=<DE,OS..> &format=<fasta/flat> Ex1 get EST Info : http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Ex2. get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Ex3 get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Ex4 get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 54dc9a8bd196e1ecd40d79193ab27b054367085b 2108 2107 2008-02-12T20:07:11Z Nguyen 15 /* Simple Services */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd. 2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor to run BIRD-QL queries. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ee33402eb34a103e282ba1db45f195a3babaa403 2109 2108 2008-02-12T20:12:33Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 8ac6ecaa2c498277040a47ef7ba5ee51a80a9ad0 2110 2109 2008-02-12T20:14:44Z Nguyen 15 /* BIRD Implementation */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim utilise BIRD=== Macsim peut se mettre maintenant en connexion directe avec Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' bc832bf75f4d05b424f4782c7ebd0ff164f99a00 2111 2110 2008-02-12T20:16:46Z Nguyen 15 /* Macsim utilise BIRD */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRD=== Macsim can now get direct connection with Bird ===GPS utilises BIRD=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' f3a04ead45f520e311cce9934f8c7a84ef411e59 2112 2111 2008-02-12T20:17:15Z Nguyen 15 /* GPS utilises BIRD */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRD=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' d794489815ba1948dacaa037ad50b3cca40f8c59 2113 2112 2008-02-12T20:17:51Z Nguyen 15 /* Macsim uses BIRD */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Data Discovery in Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 5d1d9c0b3cdaa77c0ee829cbc8a3bdbc166fc516 2114 2113 2008-02-12T20:18:48Z Nguyen 15 /* Data Discovery in Database */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains synthetase |and tyrosyl WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains Eukaryote WH DR Contains GO WH GENE contains GF100027 FM SIMPLE The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' bef1022ee2645dd1608d34334d093ec81a418864 2115 2114 2008-02-12T20:21:31Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 27ad6b24bb952b07c52934a531f7a095e10574c6 2116 2115 2008-02-12T20:23:29Z Nguyen 15 wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen, nguyen@igbmc.u-strasbg.fr]] at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 5652e91e83cb258c4510a96ee7e455fc8dbc82e9 2117 2116 2008-02-12T20:25:10Z Nguyen 15 wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' b65952b70617832cf287d9042027a26b88572c12 2120 2117 2008-02-12T20:33:48Z Nguyen 15 /* WEB Server */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===API JAVA & SQL Native=== ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' cfd86f7b8caf8a37d84be6b0c7ec562d25969738 2121 2120 2008-02-12T20:36:56Z Nguyen 15 /* API JAVA & SQL Native */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein() WH PATTERN <function …. () LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' e4757ce9df8df6595dbd316b8eb3c78646a49402 2122 2121 2008-02-13T07:59:31Z Nguyen 15 /* BIRDQL Grammar */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 9474a19540085b642a682e45df0e8a829237a9f5 2123 2122 2008-02-13T08:00:44Z Nguyen 15 /* BIRDQL in few words */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 834e67c137cdb34d6c3dbbd67db86ab07b03cdc9 2124 2123 2008-02-13T08:01:08Z Nguyen 15 /* BIRDQL in few words */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 14d6356d1d3b155118d9061901946b475d38cf8d 2125 2124 2008-02-13T08:15:21Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 64bebf139415b7e359b88602da567574b1335301 2126 2125 2008-02-13T08:23:52Z Gagniere 3 /* BIRD Implementation */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 5a634c8ec37571ace5832bec9310c7650fe713d6 2127 2126 2008-02-13T12:58:57Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT Example 4: Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT Example 5: Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT Example 6: Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA Example 7: running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ddb66de593b9e173c0f9a1dd290123b4d717863b 2128 2127 2008-02-13T13:00:12Z Nguyen 15 /* WEB Server */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. Example 1: simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 2: complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. Example 3: mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT Example 4: Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT Example 5: Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT Example 6: Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA Example 7: running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' e6d7e5f4d511e14a11205ae80e97308340e13b72 2129 2128 2008-02-13T13:01:41Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==DATA ACCESS Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' e3754bf23d6207ffc4262a1b9c4f33e58d2f7540 2130 2129 2008-02-13T13:04:32Z Nguyen 15 /* DATA ACCESS Protocoles */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql =”ID * DB UniProt WH DE contains .. FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 9881ea41bb445777f27f3287a1fc83c83d15d922 2131 2130 2008-02-13T13:06:50Z Nguyen 15 /* API JAVA & SQL Native */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfacreDB(“my-bird”) // BIRD-QL birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 273e645b34ae63a1c9dc639db5b9a1a5833741d2 2132 2131 2008-02-13T13:07:12Z Nguyen 15 /* API JAVA & SQL Native */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” OID=birddb.queryengine.run(birdql); For { i=1 to N } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 3de63e31448ee71f6f2f800e69a9a4764f9054f3 Main Page 0 1279 2118 2034 2008-02-12T20:30:10Z Nguyen 15 /* Progiciels */ wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD System]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 4b2aa952db27a1b54f81d175c116c8669b610278 2119 2118 2008-02-12T20:31:15Z Nguyen 15 /* Progiciels */ wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] b3418bc511794ea256da8c119f3a1602b485acaa BIRD 0 1313 2133 2132 2008-02-13T13:08:02Z Nguyen 15 /* API JAVA & SQL Native */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ce62149ae1ebdf5ea1401e688de110a5cf872acb 2134 2133 2008-02-13T13:19:37Z Nguyen 15 /* API JAVA & SQL Native */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } … ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ae04d4d8884c48f2e60784b6223926dcce24f89f 2135 2134 2008-02-13T13:20:23Z Nguyen 15 /* API JAVA & SQL Native */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 461110f3f17c5b7780bfa8b9cdf1b9b89c067465 2136 2135 2008-02-13T14:01:32Z Nguyen 15 /* Simple Services */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 54fd10ad6ea7b0fca469fa1a96498131a2606d44 2137 2136 2008-02-15T14:49:03Z Nguyen 15 /* Simple Services-Bank ID */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=.... 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 9dd450ca644fd147059031ec6523cc8b1a78e033 2138 2137 2008-02-15T16:06:32Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID* DB Uniprot--WH DE contains "Helianthinin-G3"--LM 10--FD AC,DE--FM FLAT 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 5ee932a1e00a24eaf708d21200c881099e8e3bdb 2139 2138 2008-02-15T16:25:43Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' fcf07832cc576b77d171da90ea39ef8549e7362a 2140 2139 2008-02-15T16:26:02Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' c50304fb81173c6014fbdafababab2b68a325cf1 2141 2140 2008-02-15T16:26:11Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 9ff7324096ffdbc5fff38ee0512acf1f56e4b071 2142 2141 2008-02-15T18:02:46Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID%20*%20DB%20Uniprot--WH%20DE%20contains%20%22histone%22--LM%2010--FD%20AC,DE--FM%20FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 84ad2b6ac75213d2cb1acc9dc7ca056f4930ee63 2143 2142 2008-02-15T18:02:57Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID%20*%20DB%20Uniprot--WH%20DE%20contains%20%22histone%22--LM%2010--FD%20AC,DE--FM%20FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' eb3579f7ba0363090b9d57b3d2e24ea100e9b8c5 2144 2143 2008-02-15T18:04:13Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' 14279ef15e3c5533c0e1107357f054892ccfa10b 2145 2144 2008-02-15T18:05:12Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' d7f5ae3e1766409dc3384a6cb532de5be150937e 2146 2145 2008-02-15T18:20:05Z Nguyen 15 wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==CITATION== NGUYEN H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O.: Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. ... fa04485032c5ef2b231ece165f062d3023d7a711 2147 2146 2008-02-15T18:20:27Z Nguyen 15 /* CITATION */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==CITATION== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O.: Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. ... bc7582c8b1163c9d323b412d79fcdec3b487ee43 2148 2147 2008-02-15T18:20:44Z Nguyen 15 /* CITATION */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==CITATION== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. ... 5ddf0bdf16d99a6536609d639cb7d6ea792093d0 2149 2148 2008-02-15T18:20:58Z Nguyen 15 /* CITATION */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Citation== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. ... 39b6e7d4cbd8a73300b1f02d4b659fd16339fe9a 2150 2149 2008-02-15T18:33:11Z Nguyen 15 /* Citation */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg) ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. ... ... 1998fb9de7a7308ff4611e8a0aa1167430118a83 2151 2150 2008-02-15T18:37:44Z Nguyen 15 wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM OID The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. ... ... cde91a62bc7d66675036577ff748ee2bea831ee1 2152 2151 2008-02-15T18:41:30Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. ... ... fca02d901b24fc99c3009ed7cf677d473d7e50ee 2153 2152 2008-02-15T18:43:16Z Nguyen 15 /* Publication */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite GOA, please use the following publication; Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. ... ... 104f71b24dce9a8515f70e9fa0ab5270a7e9f71b 2154 2153 2008-02-15T18:43:26Z Nguyen 15 /* Publication */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite GOA, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. ... ... db3aeac2c2e83daf4cb88ffcb5713759498d7cb9 2155 2154 2008-02-15T18:43:41Z Nguyen 15 /* Publication */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite GOA, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... f0dee5acea56240aa3b30a457c47aa59d9c2ecf8 2156 2155 2008-02-15T18:45:08Z Nguyen 15 /* Publication */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Implementation== [[lbgiki:BIRD_implementation|BIRD Implementation]] Architecture Federation Data Model Query Engine Data Integration Key Technologies wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... 42886b4837f4ed8dce4a36107d16c958d22727bd 2157 2156 2008-02-15T18:49:41Z Nguyen 15 /* BIRD Implementation */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor. User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... 7ff2a6c2990d6d712bc80fd2625fdb3ff389ca79 2158 2157 2008-02-15T18:50:34Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java). BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... 450f6d51a024c79a3eb90ea80d9523f216f1cdfd 2159 2158 2008-02-15T18:54:20Z Nguyen 15 wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA & SQL Native=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... f24e1b9b487d43829dd32ab1f48d772fda8fd7ec 2160 2159 2008-02-15T19:01:57Z Nguyen 15 /* API JAVA & SQL Native */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS wwwww ==BIRD System in Action == ===Decrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... 1837559bf8fe401e6d5cf7c8ae9ef551660c557f 2161 2160 2008-02-15T19:03:29Z Nguyen 15 /* Decrypthon Data Center Implementation */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS wwwww ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... 87f1998f1c25a370fdf117fbc5cf0dc849a7945f 2162 2161 2008-02-15T19:04:46Z Nguyen 15 wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS wwwww 5f0c073963cde020255be24b2c7033379e4cd5ec 2163 2162 2008-02-15T19:06:12Z Nguyen 15 /* BIRD Development */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team wwwww cc04d260796e05af47d18f71c5b47c9c42bf62db 2164 2163 2008-02-15T19:06:58Z Nguyen 15 /* BIRD Development */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team Contact: nguyen@igbmc.fr | 0033 388653302 wwwww 8233be69ddf38deaf9c488588b008456750c9634 2165 2164 2008-02-15T19:07:10Z Nguyen 15 /* BIRD Development */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team Contact: nguyen@igbmc.fr | 0033 388653302 f55558ad397e666c5d93d15266ed9e1181e38ddc 2166 2165 2008-02-15T19:07:49Z Nguyen 15 /* BIRD Development */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team Contact: [nguyen@igbmc.fr] | 0033 388653302 c7d7c50adfb0f23fdcc0eadd5e996f47662fcb41 2167 2166 2008-02-15T19:08:00Z Nguyen 15 /* BIRD Development */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Decrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team Contact: nguyen@igbmc.fr | 0033 388653302 f55558ad397e666c5d93d15266ed9e1181e38ddc 2168 2167 2008-02-15T19:09:21Z Nguyen 15 /* Data Browsing at Decrypthon Data Center */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team Contact: nguyen@igbmc.fr | 0033 388653302 96d7cc910832630dd9ef297a840693401b9e33ed 2169 2168 2008-02-15T19:13:11Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System was use to implemntation Décrypthon Data Center in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team Contact: nguyen@igbmc.fr | 0033 388653302 3244d5dd9aaab485b2a92113e0ceb3ebf451e8ca 2170 2169 2008-02-15T19:14:55Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team Contact: nguyen@igbmc.fr | 0033 388653302 10c951dbf4b56b3ba72019d807fa446f71de5693 2171 2170 2008-02-15T19:15:05Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team Contact: nguyen@igbmc.fr | 0033 388653302 b41564352708a2cdbcc1974ea12896267a537de4 2172 2171 2008-02-15T19:18:04Z Nguyen 15 /* BIRD Development */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 4ebbcc50a11175773cbd9dbf6fa206a7b17eaa91 2173 2172 2008-02-16T01:11:11Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 cbf09b4a7bab39753fe97e5f073073d818e86e0c 2174 2173 2008-02-16T01:12:54Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH PATTERN <function AssociationRule()> LD <Field out> FM <n> FM Fasta/Flat/Xml/CSV/Simple/Object ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 eaf6686eec448a3e2113bcca2bb29d2cf88ec294 2175 2174 2008-02-16T01:25:35Z Nguyen 15 /* BIRDQL Grammar */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObjet(OID[i]; …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 41be32651f0d474f8c2427e0db76ec884913f74a 2176 2175 2008-02-16T01:28:26Z Nguyen 15 /* API JAVA - BIRDQL Client */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API bird Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ff60b426562eef725de33a8f589834d1f366a2ef 2177 2176 2008-02-16T01:46:03Z Nguyen 15 /* API JAVA - BIRDQL Client */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name for query result Variable Description image_type 1 = floating point 2 = integer 3 = byte image_offset The start of the pixel data in bytes from the beginning of the file image_width The width of the image in pixels image_height The height of the image in pixels ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 6b1a69fc1d6c24960a42518ddc6f181e71d586a4 2178 2177 2008-02-16T01:51:05Z Nguyen 15 /* API JAVA - BIRDQL Client */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Example in BIRD System=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 3152a04d8f348e5f7aca6827fdb494a17d5692e6 2179 2178 2008-02-16T01:52:56Z Nguyen 15 /* BIRD business intelligence */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 fa29175be1dc8f4572f88c1b0996c41505353c12 2180 2179 2008-02-16T01:57:49Z Nguyen 15 /* Publication */ wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 0b9cf67a6b5061106f451a34d57a7a3ea0cb70dd 2181 2180 2008-02-16T02:00:52Z Nguyen 15 wikitext text/x-wiki BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 3ba624157cb79600ea3f8b43a62ada672b2f3da9 2182 2181 2008-02-16T02:16:33Z Nguyen 15 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] Data Model Query Engine Data Integration Architecture Key Technologies CVS Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== cf8f037b0d2b891488e14211a568a8e1b84d444a BIRD 0 1313 2183 2182 2008-02-16T02:35:23Z Nguyen 15 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 and WebSphere Federation Server Java/J2EE Server IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML : File configuration and Modeling ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 24601ba8929b051cf7a3341f56c6529d3bcd1968 2184 2183 2008-02-16T02:36:27Z Nguyen 15 /* Key Technologies */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML : File configuration and Modeling ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 9d9776bc07919ae71ed85989ccab845102f9de90 2185 2184 2008-02-16T02:37:42Z Nguyen 15 /* Key Technologies */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 120bfaf40a0804c3e0b7fd3bbcca434c8cbc2d42 2186 2185 2008-02-16T02:38:14Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 34cc9b6ee6d671cba43786a185f34914f046bd0e 2187 2186 2008-02-16T02:38:49Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center Implementation=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== a464941979edcf9ec12d8f8ac559260583654367 2188 2187 2008-02-16T03:09:04Z Nguyen 15 /* Décrypthon Data Center Implementation */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===BIRD System is core of Décrypthon Data Center=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 27fe7c3099ea436814c886fad542675162a70cb0 2189 2188 2008-02-16T03:10:53Z Nguyen 15 /* BIRD System is core of Décrypthon Data Center */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===BIRD System is core of Décrypthon Data Center=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ====Overview of Décrypthon Data Center=== [[Image:Example.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 2b7139964a1a3c0d0d40191b5db066c9634b0673 2191 2189 2008-02-16T03:13:34Z Nguyen 15 /* =Overview of Décrypthon Data Center */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===BIRD System is core of Décrypthon Data Center=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ====Overview of Décrypthon Data Center==== [[Image:Example.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== fe6163f9dc22cdffe605f1e13e8f74f1ba62ec42 2192 2191 2008-02-16T03:14:04Z Nguyen 15 /* Overview of Décrypthon Data Center */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===BIRD System is core of Décrypthon Data Center=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ====Overview of Décrypthon Data Center==== [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 41d584588c4b784ff25ad7fe924b933826ad5347 2194 2192 2008-02-16T03:17:35Z Nguyen 15 /* Data Browsing at Décrypthon Data Center */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center[[Link title]]=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===BIRD System is core of Décrypthon Data Center=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ====Overview of Décrypthon Data Center==== [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 7547729165400150fbff473e3e52ffc537c8a031 2195 2194 2008-02-16T03:18:28Z Nguyen 15 /* Data Browsing at Décrypthon Data Center[[Link title]] */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center[[BIRD System is core of Décrypthon Data Center]]=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===BIRD System is core of Décrypthon Data Center=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ====Overview of Décrypthon Data Center==== [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== e5887b16a9c00f5a49332aa921c23fe1963c8475 2196 2195 2008-02-16T03:19:02Z Nguyen 15 /* Data Browsing at Décrypthon Data Center[[BIRD System is core of Décrypthon Data Center]] */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===BIRD System is core of Décrypthon Data Center=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ====Overview of Décrypthon Data Center==== [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 41d584588c4b784ff25ad7fe924b933826ad5347 2197 2196 2008-02-16T03:19:22Z Nguyen 15 /* Team */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===BIRD System is core of Décrypthon Data Center=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ====Overview of Décrypthon Data Center==== [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 56ef7e3110a6c3b745bf020b7048e9c3227bbffe 2198 2197 2008-02-16T03:33:45Z Nguyen 15 /* BIRD System is core of Décrypthon Data Center */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid [[Image:ddb_idea.jpg]] http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ====Overview of Décrypthon Data Center==== [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 733457addc30d02c6bab7a6ad73c030cebef1edc 2200 2198 2008-02-16T03:41:08Z Nguyen 15 /* Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do ====Overview of Décrypthon Data Center==== [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== 3f2ca2c275c0142eecf0005e2c372d13df32fc2b 2201 2200 2008-02-16T03:42:12Z Nguyen 15 /* Décrypthon Data Center */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== d3156961405144b14014b6636bf2cbe99f975217 2202 2201 2008-02-16T03:49:20Z Nguyen 15 /* Architecture */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAOs== e354fe648e0ad7517c51850016166e08d920b3cd 2204 2202 2008-02-16T04:01:47Z Nguyen 15 /* FAOs */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 87825c0e965127f67774f6ea0f6e1813e1d2afc2 2205 2204 2008-02-16T04:03:18Z Nguyen 15 /* Macsim uses BIRDQL engine */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). Macsim can now get direct connection with Bird ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== b9d72279921ba205e6f18abc7c0b051df3c7c5fe 2206 2205 2008-02-16T04:04:41Z Nguyen 15 /* Macsim uses BIRDQL engine */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 9ad92650493c9c900ce436bc02f9af1076a40139 2207 2206 2008-02-16T04:05:16Z Nguyen 15 /* Macsim uses BIRDQL engine */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publication== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing ..... ... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 476f9ac02268be7391895771ba4a423f4cf0d8d4 2208 2207 2008-02-16T04:06:48Z Nguyen 15 /* Publication */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 839b8f397c4bb625cad8942098f60f33fb78711f 2209 2208 2008-02-16T04:20:25Z Nguyen 15 /* BIRD Development */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)==== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS .. ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 13d46bec6a4a6acddfd05ed16fa43e6ddc015bab 2210 2209 2008-02-16T04:23:02Z Nguyen 15 /* Origin BIRD System (SAADA)= */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)==== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home] Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS .. ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 055a0458ea40465af10d2fdf47cf1d94592cdbaa 2211 2210 2008-02-16T04:27:02Z Nguyen 15 /* Origin BIRD System (SAADA)= */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)==== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home] Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:Example.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== a7f280719eb0e52dc7a125829a9cb2da8312902e 2212 2211 2008-02-16T04:27:28Z Nguyen 15 /* Origin BIRD System (SAADA)= */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)==== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home] Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 4fb60559dca16522e9e9f1920bcf392e40ba80f6 2214 2212 2008-02-16T04:34:05Z Nguyen 15 /* Origin BIRD System (SAADA)= */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)==== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home] Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 9d2907412ebdc2b41b0450347b4153f3495b15af 2215 2214 2008-02-16T04:34:36Z Nguyen 15 /* Origin BIRD System (SAADA)= */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home] Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 2b8134a21325a9826ed8d92ee26c44847380ecca 2216 2215 2008-02-16T04:35:41Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home] Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== de73758604c21d400c666d668c2780e2b69538a7 2218 2216 2008-02-16T04:40:39Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home] PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 1f043bfaf3d5d0207aef882de66a8976cb85ac74 2219 2218 2008-02-16T04:41:58Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== d1b5fbdc686da52ccbc209973196162f6ba12eef 2220 2219 2008-02-16T04:43:03Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== f53d26d3347a8ec293af45bb60185cf96d9dd39f 2221 2220 2008-02-16T04:44:08Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== c908a1498c2ddc4aeca7214a285812c63fc4cf39 2222 2221 2008-02-16T04:45:11Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddb_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 50df285bf6ec8a33f236372d5f8c8f75a9d0a766 2223 2222 2008-02-16T04:51:15Z Nguyen 15 /* Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBB DB2 V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== c4c56c2e389a98adc7ca6be263c465c4594df9c8 2225 2223 2008-02-16T05:04:11Z Nguyen 15 /* Key Technologies */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML File configuration ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 038520eb2675a8023d0af802945e4f410fe5dd8e 2226 2225 2008-02-16T05:05:04Z Nguyen 15 /* Key Technologies */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 1e24ce4fb9f51696d2fbd04d0c011199a3af3819 2227 2226 2008-02-16T05:06:46Z Nguyen 15 /* Distribution */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== e9375c3487023a55e761446786e38f6a8b8db0e8 2228 2227 2008-02-16T05:09:02Z Nguyen 15 /* BIRD business intelligence */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===BIOWEKA=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== e1995f7ae4992412d080ff2803f419b8f33aef41 2229 2228 2008-02-16T05:09:20Z Nguyen 15 /* BIRD business intelligence */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===BIO-WEKA=== ===Use cases=== ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== f296f6cdc2bd757f311d1efec4f29f8906192427 2230 2229 2008-02-16T05:10:31Z Nguyen 15 /* Use cases */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===BIO-WEKA=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 5bfc85d9a826728b5ecc9651cccc191319f0011f File:Example.jpg 6 1378 2190 2008-02-16T03:12:16Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Bird ddc.jpg 6 1379 2193 2008-02-16T03:16:21Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Ddb idea.jpg 6 1380 2199 2008-02-16T03:35:08Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Bird arch.jpg 6 1381 2203 2008-02-16T03:51:25Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Saada.jpg 6 1382 2213 2008-02-16T04:27:40Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Saada bird.jpg 6 1383 2217 2008-02-16T04:35:56Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Ddc idea.jpg 6 1384 2224 2008-02-16T04:51:32Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 Main Page 0 1279 2231 2119 2008-02-16T13:49:40Z Nguyen 15 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [[BIRD]] Biological Integration and Retrivial Data * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] fffc851b7bf77d3aa5e1f48ebcae0d2c1229a7da 2232 2231 2008-02-16T13:50:17Z Nguyen 15 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] b3418bc511794ea256da8c119f3a1602b485acaa BIRD 0 1313 2233 2230 2008-02-16T13:51:00Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===BIO-WEKA=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== ee6a051b8058e87d981aa61f905c110ab073fe68 2234 2233 2008-02-16T13:52:25Z Nguyen 15 /* BIRD business intelligence */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada System. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region Evaluation and Validation by ESO, AstroGRID, ADASS ... [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== ef447db4deccecc370fad6cb787b4c0d182afb28 2235 2234 2008-02-16T13:54:40Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 61cfba047e3b3bfba24f53bf0e4da93165deb600 2236 2235 2008-02-16T13:59:55Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== a12c6b16fefcbd392b49fd4112bf6b8ed39052df 2237 2236 2008-02-16T14:00:13Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 0596f1de527423e7c547279e880bc0bbb2f73a96 2238 2237 2008-02-16T14:00:31Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 2f1c6e843da55dc4cbeb945d3d23b2b8db61d185 2239 2238 2008-02-16T14:00:51Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== 287057d216c0f4caa74120b3c09add33718d5641 2240 2239 2008-02-16T14:01:07Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: nguyen@igbmc.fr | 0033 388653302 ==FAQ== f7d0192a36879561881fe157f7c559415d2f2a20 2241 2240 2008-02-16T14:07:15Z Nguyen 15 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: Nguyen Ngoc Hoan IGBMC Strasbourg Mail:nguyen@igbmc.fr Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ== cf08893e7b5eb3e12b6da8aa5e8eac9c2a255e30 2242 2241 2008-02-16T19:28:03Z Ripp 1 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: Nguyen Ngoc Hoan IGBMC Strasbourg Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ== 861120db69560e3a818f68697514f3c44a09fa8b 2257 2242 2008-02-18T06:59:58Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: Nguyen Ngoc Hoan IGBMC Strasbourg Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ== 938cdb6cb892755cbd0260aec87483015701e274 2258 2257 2008-02-18T07:00:09Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ===Team=== Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O Contact: Nguyen Ngoc Hoan IGBMC Strasbourg Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ== 9dfff5285a5ad9299f3ee96bce06cb21e05bb245 2259 2258 2008-02-18T07:03:52Z Nguyen 15 /* Team */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ== 5a3ce6e95c4ab58bc3c3ae9d8f101895d1cc1f93 2260 2259 2008-02-18T07:22:34Z Nguyen 15 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== NO ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ== 35f89025d3da1919a5d54e47b3bd2bdc92678660 2261 2260 2008-02-18T10:08:07Z Nguyen 15 /* Project Distribution */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV [[Image:Example.jpg]] ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ== b17c618ac0d61e5e842a4a0a79308c4e33383939 2262 2261 2008-02-18T10:08:50Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ== aafece53fd4206fdda05c7bf372f51179ddc8776 2263 2262 2008-02-18T11:02:35Z Nguyen 15 /* FAQ */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 6c506f926ccd42a63e91a436652b75a006c994e3 2264 2263 2008-02-18T13:57:45Z Nguyen 15 /* BIRDQL Biological Query Language */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 63cd5b5529b90210dc9cffa0dce07d5f393116f9 2265 2264 2008-02-18T16:09:17Z Nguyen 15 /* Data Model */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:datamodel1]] ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== acc1587ab19b03c84428eba547ab01c77f6e896f 2266 2265 2008-02-18T16:12:10Z Nguyen 15 /* Data Model */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== a2ea078750a67837d69202b869551f4815211a43 2267 2266 2008-02-18T16:12:31Z Nguyen 15 /* Data Model */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 70a8f729f5dbf88797dcb32991a509032abbcf21 2269 2267 2008-02-18T16:15:27Z Nguyen 15 /* Data Model */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] Conceptual data model The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 98e0de228de1a3da555767b2e3bdb3303b9f2e71 2271 2269 2008-02-18T16:17:21Z Nguyen 15 /* Data Model */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] Conceptual data model The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 91d3cf2f845fabb40447d7c8b2f4f5e0a276372f 2272 2271 2008-02-18T16:18:58Z Nguyen 15 /* Data Model */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] Conceptual data model The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 2caab938fc1817124bb17fee2605ad4cf7354b20 2273 2272 2008-02-18T16:19:14Z Nguyen 15 /* Data Model */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System (SAADA)=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] Conceptual data model The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 1f0061eedabb64ddfc080dd653279da54c8551a1 2274 2273 2008-02-18T16:25:59Z Nguyen 15 /* Origin BIRD System (SAADA) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] Conceptual data model The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 52cac1e56182342cb9608a590fa01883945383f9 2275 2274 2008-02-18T16:26:33Z Nguyen 15 /* Data Integration */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] Conceptual data model The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 8d426da7bc06ad45c2b4f7b349e2e7dd2f3eac33 2277 2275 2008-02-18T16:32:32Z Nguyen 15 /* Data Integration */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] Conceptual data model The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 642e0d160b8818805a304f6283437506d477258e 2278 2277 2008-02-18T16:32:52Z Nguyen 15 /* Data Model */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] Conceptual data model The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 800a016f2aca98c7e8e745556c66694b94b99d81 2279 2278 2008-02-18T16:33:05Z Nguyen 15 /* Conceptual Data Model */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 0de162900c8b9bd3ecfda098c61f5bcedace1821 2280 2279 2008-02-18T16:39:29Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== [[Image:kdd_model.jpg]] Data flow of the FindDeviations procedure ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== d2e885019ac7b9dffc5275606bcb6bf2e79c3dd7 2282 2280 2008-02-18T16:40:14Z Nguyen 15 /* BIRD business intelligence */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== [[Image:kdd_model.jpg]] Data flow of the FindDeviations procedure ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 551afab902dbb444a8a5ecc28e9d5a820e8f5397 Membres du LBGI 0 1333 2243 2050 2008-02-16T19:38:49Z Ripp 1 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut-être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] (doctorant) * [[Radhouene Aniba]] (doctorant) * [[Yannick-Noël Anno]] (doctorant) * [[Guillaume Berthommier]] (IE 3A CDD) * [[Laurent Bianchetti]] (IR2 INSERM) * [[Yann Brélivet]] (thése) * [[Sophie Siguenza]] (IE 1B CDD) * [[Annaïck Carles]] (IE 3A CDD) * [[Anne Friederich]] (doctorant) * [[Nicolas Gagnière]] (doctorant) * [[User:bedez | Florence Bedez]] (doctorant) * [[Véronique Geoffroy]] (IE 3A GIE) * [[User:Dkieffer | David Kieffer]] (doctorant) * [[Odile Lecompte]] (MC2 ULP) * [[Luc Moulinier]] (IE2 CNRS) * [[Ngoc-Hoan Nguyen]] (post doc) * [[Frédéric Plewniak]] (IR2 CNRS) * [[Emmanuel Perrodou]] (post doc) * [[Olivier Poch]] (DR2 CNRS) * [[Laëtitia Poidevin]] (IE CDD) * [[Wolfgang Raffelsberger]] (postdoc) * [[Ravikiran Reddy]] (doctorant) * [[Raymond Ripp]] (IR1 CNRS) * [[Jean-Claude Thierry]] (DR1 CNRS) * [[Julie Thompson]] (IE2 CNRS) * [[Nicolas Wicker]] (MC2 ULP) e660f390ba2b9e62085172d42ecbead14f25a5ac Logiciels 0 1319 2244 1805 2008-02-16T19:49:47Z Ripp 1 wikitext text/x-wiki =Les Logiciels du Département de Biologie et Génomiques Structurales= *Tout ce qui est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/%7Eripp/cgi-bin/DocAuto.tcl DocAuto] (Raymond Ripp) *La page de [http://www-bio3d-igbmc.u-strasbg.fr/%7Ecava/labo_service/xray_progs.html Jean Cavarelli] =Logiciels LBGI= *[[Gscope]] *[[Gscope Clonage]] *[[CADO4MI]] *[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System *[[BIRD]] Biological Integration and Retrieval Data *[[cluspack]] clustering tools =Autres Logiciels= *Statistique: **[[R]] *Visualisation **[[Graphviz]] b3165b6231a53c30cec31ab8ee2a91f5d93f2eb6 2245 2244 2008-02-16T19:51:20Z Ripp 1 wikitext text/x-wiki =Les Logiciels du [http://alnitak.u-strasbg.fr/dbgs Département de Biologie et Génomiques Structurales]= *Tout ce qui est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/%7Eripp/cgi-bin/DocAuto.tcl DocAuto] (Raymond Ripp) *La page de [http://www-bio3d-igbmc.u-strasbg.fr/%7Ecava/labo_service/xray_progs.html Jean Cavarelli] =Logiciels [http://alnitak.u-strasbg.fr LBGI]= *[[Gscope]] *[[Gscope Clonage]] *[[CADO4MI]] *[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System *[[BIRD]] Biological Integration and Retrieval Data *[[cluspack]] clustering tools =Autres Logiciels= *Statistique: **[[R]] *Visualisation **[[Graphviz]] 25fc50c380d3247ee6ca10aa6fdc0b15abb1246f 2246 2245 2008-02-16T19:53:14Z Ripp 1 wikitext text/x-wiki =Les Logiciels du [http://alnitak.u-strasbg.fr/dbgs DBGS] Département de Biologie et Génomiques Structurales= *Tout ce qui est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/%7Eripp/cgi-bin/DocAuto.tcl DocAuto] (Raymond Ripp) *La page de [http://www-bio3d-igbmc.u-strasbg.fr/%7Ecava/labo_service/xray_progs.html Jean Cavarelli] =Logiciels [http://alnitak.u-strasbg.fr LBGI] Laboratoire De BioInformatique et Génomique Intégratives= *[[Gscope]] *[[Gscope Clonage]] *[[CADO4MI]] *[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System *[[BIRD]] Biological Integration and Retrieval Data *[[cluspack]] clustering tools =Autres Logiciels= *Statistique: **[[R]] *Visualisation **[[Graphviz]] acfaa3ebc753e8561484187cc6161c92c72ecf4a 2247 2246 2008-02-16T19:54:29Z Ripp 1 wikitext text/x-wiki =Les Logiciels du [http://alnitak.u-strasbg.fr/dbgs DBGS] Département de Biologie et Génomiques Structurales= *Tout ce qui est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/%7Eripp/cgi-bin/DocAuto.tcl DocAuto] (Raymond Ripp) *La page de [http://www-bio3d-igbmc.u-strasbg.fr/%7Ecava/labo_service/xray_progs.html Jean Cavarelli] =Logiciels [http://alnitak.u-strasbg.fr LBGI] Laboratoire De BioInformatique et Génomique Intégratives= *[[Gscope]] *[[Gscope Clonage]] *[[CADO4MI]] *[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System *[[BIRD]] Biological Integration and Retrieval Data *[[cluspack|Cluspack]] clustering tools =Autres Logiciels= *Statistique: **[[R]] *Visualisation **[[Graphviz]] 01b1b73bf3a07ea1ec0eff6567559585b5b7a7a8 Cluspack 0 1353 2248 2019 2008-02-16T19:55:56Z Ripp 1 wikitext text/x-wiki Cluspack permet de lancer un clustering en k-means ou en mixture-models. <br> Plus de details sont sur le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] '''Input format''': Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br> La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin) '''Utilisation''' : En ligne de commande (avec tous arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kMeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 '''Attention''' : Cluspack tourne sur les "star" et mais ne tourne plus sur Beaufort !! ea0ce7ac8f866da69e8769afa4f53b6be2be382e 2249 2248 2008-02-16T19:57:57Z Ripp 1 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur les "star" et mais ne tourne plus sur Beaufort !! Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] '''Input format''': Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br> La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se trouver à la fin) '''Utilisation''' : En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kMeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 ce347d54be560433b1d7d7075270bb23b5da3089 2250 2249 2008-02-16T19:58:36Z Ripp 1 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !! Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] '''Input format''': Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br> La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se trouver à la fin) '''Utilisation''' : En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kMeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 9e9e37e849498c2cfee70478885f6ec3c8ce4e54 2251 2250 2008-02-16T20:22:03Z Ripp 1 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !! ==Principe== Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] ==Format d'entrée== Le fichier d'entrée doit être formaté de la façon suivante : * la première ligne indique le nombre des lignes et des colonnes. * les lignes suivantes sont de la forme ** la première colonne des données peut contenir des identifiants ** les autres colonnes de texte, annotation etc devront se trouver à la fin ==Utilisation== En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kMeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 fe99ce77f4e88a2d5991033417b02d5ff9af2552 Star 0 1346 2252 1739 2008-02-17T12:27:36Z Ripp 1 wikitext text/x-wiki Les Stars sont nos machines de calcul. Ce sont des quadripro Opteron ==Systèmes d'exploitation== * Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris * Star 3 star4 star5 Star6 Star7 Star8 sont maintentant toutes sous Linux RedHat ==Disques== * /home est monté sut toutes les machines. On y trouve toutes les ''home-directories''. En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques. Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur * /usr/local est en fait /linux/local [[R]] tourne spécifiquement sur star5. [[java]] 1.5 est installé sur star6. 31a48a9f3f21aed563dfea7b2f2e861f077611a8 2253 2252 2008-02-17T12:29:28Z Ripp 1 wikitext text/x-wiki Les Stars sont nos machines de calcul. Ce sont des quadripro Opteron ==Systèmes d'exploitation== * Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris * Star 3 star4 star5 Star6 Star7 Star8 sont maintentant toutes sous Linux RedHat ==Disques== * /home est monté sut toutes les machines. On y trouve toutes les ''home-directories''. En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques. Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur * /usr/local est en fait /linux/local Il est commun à toutes les machines linux. Notons qu'il peut y avoir qquelques incompatibilités entre le RedHat et les Ubuntu, ou les Optéron et les Intel ... [[R]] tourne spécifiquement sur star5. [[java]] 1.5 est installé sur star6. 5e35fd5fe9414d3ac220a6075787d7f4244b522c 2254 2253 2008-02-17T12:30:08Z Ripp 1 wikitext text/x-wiki Les Stars sont nos machines de calcul. Ce sont des quadripro Opteron ==Systèmes d'exploitation== * Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris * Star 3 star4 star5 Star6 Star7 Star8 sont maintentant toutes sous Linux RedHat ==Disques== * /home est monté sut toutes les machines. On y trouve toutes les ''home-directories''. En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques. Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur * /usr/local est en fait /linux/local Il est commun à toutes les machines linux. Notons qu'il peut y avoir quelques incompatibilités entre le RedHat et les Ubuntu, ou les Optéron et les Intel ... La suite est à verifier ... [[R]] tourne spécifiquement sur star5. [[java]] 1.5 est installé sur star6. df538a2115076c66e799d4856fdd7baa2dc76213 2255 2254 2008-02-17T12:31:25Z Ripp 1 wikitext text/x-wiki Les Stars sont nos machines de calcul. Ce sont des quadripro Opteron ==Systèmes d'exploitation== * Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris * Star 3 , 4 , 5 , 6 , 7 , 8 sont maintentant toutes sous Linux RedHat ==Disques== * /home est monté sut toutes les machines. On y trouve toutes les ''home-directories''. En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques. Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur * /usr/local est en fait /linux/local Il est commun à toutes les machines linux. Notons qu'il peut y avoir quelques incompatibilités entre le RedHat et les Ubuntu, ou les Optéron et les Intel ... La suite est à verifier ... [[R]] tourne spécifiquement sur star5. [[java]] 1.5 est installé sur star6. df3c7a182671483f5b47ac364fa20288f690de70 2256 2255 2008-02-17T12:31:48Z Ripp 1 wikitext text/x-wiki Les Stars sont nos machines de calcul. Ce sont des quadripro Opteron ==Systèmes d'exploitation== * Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris * Star 3 , 4 , 5 , 6 , 7 , 8 sont maintentant toutes sous Linux RedHat ==Disques== * /home est monté sur toutes les machines. On y trouve toutes les ''home-directories''. En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques. Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur * /usr/local est en fait /linux/local Il est commun à toutes les machines linux. Notons qu'il peut y avoir quelques incompatibilités entre le RedHat et les Ubuntu, ou les Optéron et les Intel ... La suite est à verifier ... [[R]] tourne spécifiquement sur star5. [[java]] 1.5 est installé sur star6. 1f12fda92a756bb784112dbae1fd071637d98139 File:Model1.jpg 6 1385 2268 2008-02-18T16:12:46Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Model2.jpg 6 1386 2270 2008-02-18T16:16:32Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Integration1.jpg 6 1387 2276 2008-02-18T16:26:43Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Kdd model.jpg 6 1388 2281 2008-02-18T16:39:56Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 BIRD 0 1313 2283 2282 2008-02-18T16:40:55Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) ===DB2 Miner Intelligent (API)=== ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 4937e6a68c4b0e8cac358f8cfba135637d1511ee 2284 2283 2008-02-18T16:44:48Z Nguyen 15 /* DB2 Miner Intelligent (API) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) ===DB2 Miner Intelligent (API)=== Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: Your database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 49b07fada4bcda80e260e2af675a5e0d9b0a6ccc 2285 2284 2008-02-18T16:49:59Z Nguyen 15 /* DB2 Miner Intelligent (API) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) ===DB2 Miner Intelligent (API)=== Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) The database might contain customer data. In the tables or views of your database, there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 94568a44a3d1a6fc02c153aa5d73d5f1fcd68791 2286 2285 2008-02-18T16:50:28Z Nguyen 15 /* DB2 Miner Intelligent (API) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) ===DB2 Miner Intelligent (API)=== Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) The database might contain customer data. In the tables or views of your database, there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== acb820f31836e4c96395bea6ab3f43524f6133c2 2287 2286 2008-02-18T16:53:26Z Nguyen 15 /* DB2 Miner Intelligent (API) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) ===DB2 Miner Intelligent (API)=== Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) The database might contain customer data. In the tables or views of your database, there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 0bdc0f847c898e10ecf453d429faeeb62295b288 2288 2287 2008-02-18T16:54:53Z Nguyen 15 /* DB2 Miner Intelligent (API) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) ===DB2 Miner Intelligent (API)=== Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 6d9512beb86b5e9bfabd00a8dd2858f5a97e9c9f 2289 2288 2008-02-19T03:56:47Z Nguyen 15 /* BIRD business intelligence */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===Theory and Functionalities=== ====Association rule learning==== What Is Association Rule Mining? Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Basic Itemset: a set of items E.g., acm={a, c, m} Support of itemsets Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). Learning in K-maps 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 2d976d29f291a9d7c9ef5060a16a7da5697fb22b 2291 2289 2008-02-19T04:03:34Z Nguyen 15 /* Association rule learning */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Kownledge Discovery in Biological Database=== ===Theory and Functionalities=== ====Association rule learning==== '''What Is Association Rule Mining?''' Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? '''Basic''' Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] '''Apriori Algorithm''' [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). Learning in K-maps 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Use cases=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== e95d11da89ae40859702788d17a68c6d2c7d1dce 2293 2291 2008-02-19T04:04:48Z Nguyen 15 /* BIRD business intelligence */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theory and Functionalities=== ====Association rule learning==== '''What Is Association Rule Mining?''' Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? '''Basic''' Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] '''Apriori Algorithm''' [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). Learning in K-maps 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 7fcdf6a8c55bb360917cb4ea23155b1886c212b6 2294 2293 2008-02-19T04:06:26Z Nguyen 15 /* Kohonen´s feature maps */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theory and Functionalities=== ====Association rule learning==== '''What Is Association Rule Mining?''' Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? '''Basic''' Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] '''Apriori Algorithm''' [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). Learning in K-maps 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 49fb140fcc5af1fd523b0570a8cf4335159faaae 2295 2294 2008-02-19T04:08:16Z Nguyen 15 /* BIRD business intelligence */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== ====Association rule learning==== '''What Is Association Rule Mining?''' Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? '''Basic''' Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] '''Apriori Algorithm''' [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== f29d2b0a67666ed07916c0bf202e39d807954eba 2296 2295 2008-02-19T04:11:51Z Nguyen 15 /* Association rule learning */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== ====Association rule learning==== '''What Is Association Rule Mining?''' Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? '''Basic''' Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] '''Apriori Algorithm''' [[Image:Apriori.jpg]] Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return k Lk; ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== fe6e7e38fd974073d76bff7a09b88eda510af31a 2297 2296 2008-02-19T04:14:31Z Nguyen 15 /* Association rule learning */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== ====Association rule learning==== a.'''What Is Association Rule Mining?''' Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== ea577f5be77213e0f1018286d88fff315bb90dc4 2298 2297 2008-02-19T04:45:09Z Nguyen 15 /* Theories and Functionalities */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 68e319aad09d1f3dffc676f7aa1af413d6df9fdd 2301 2298 2008-02-19T05:18:55Z Nguyen 15 /* Association rule learning */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== e8cab89fc0d28c7329bf407ae415029c9fdb41f7 2302 2301 2008-02-19T05:20:59Z Nguyen 15 /* Theories and Functionalities */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] [[Image:algo3.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== a11b34fda2bcd91502c04b1936a869263e05a681 2304 2302 2008-02-19T05:25:52Z Nguyen 15 /* Theories and Functionalities */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 7883cfca7e8da11cc5e1b5b6cdb53ec957121423 2306 2304 2008-02-19T05:27:44Z Nguyen 15 /* Theories and Functionalities */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== [[Image:kdd_model.jpg]] Data flow of the mining procedure (FindDeviations) Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 56df08ae0694c81a966e8a4b8d11a66188d23547 2307 2306 2008-02-19T05:29:09Z Nguyen 15 /* DB2 Miner Intelligent (API) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Transciptomic Protein Protein Interaction Pattern ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 433356f65172862f06e6b6f6d5292c76aa025be2 2308 2307 2008-02-19T05:38:07Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions? � � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using our suggested strategies? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using our suggested strategies? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using our suggested strategies? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== acbe18500d15488fad3f29d85c4711b2b74fe30b 2309 2308 2008-02-19T05:39:21Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions? � � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using our suggested strategies? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using BIRD KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using BIRD KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 0449781e8fed7c3177a8c9f94f4df280d5030fd6 2310 2309 2008-02-19T05:40:30Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using BIRD KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using BIRD KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using BIRD KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 8a6cc3e2f77e89c362a667b2fd2922d428517a33 2311 2310 2008-02-19T05:40:44Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using BIRD KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using BIRD KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using BIRD KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 29e811d1aac455e40e43a4ef34fd6ab50f3683f2 2312 2311 2008-02-19T05:44:48Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions (source IBM Miner Intelligent)? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 63286940384dc06e53a028ef6e0c0a3a732627a5 2313 2312 2008-02-19T05:52:27Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASES List == GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 4d988fd2d7cde73de03de1335c0a37470b18b67a 2314 2313 2008-02-19T07:10:06Z Nguyen 15 /* DATABASES List */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL,GENBANK, XML, CSV, OBO, PDB Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== ee9144d7d5179357368458027e3f86d280bf442f 2315 2314 2008-02-19T07:12:13Z Nguyen 15 /* Data Format & DATABASES List */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==BIRDQL Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 876a0ccf660e2448b8fbead5466a5a003a9a8735 2316 2315 2008-02-19T11:27:15Z Ripp 1 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 69ceafa623764bd9b7ba9d7240bef7b49ddc0c71 2319 2316 2008-02-19T11:29:32Z Ripp 1 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ==Data Access Protocoles== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 348dc44173f15e9ad446bfc4b0eed17a6d25d8ae 2320 2319 2008-02-19T11:31:27Z Ripp 1 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ==[[BIRD-Data-Access-Protocol|Data Access Protocoles]]== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 9c86a4ee8e350005c629deda894ae7a3b6b9fc07 2321 2320 2008-02-19T11:32:22Z Ripp 1 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ==[[BIRD Data Access Protocol|Data Access Protocoles]]== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 5a4e6722910b1adabf966adc5e8dd86b4b48cf50 2323 2321 2008-02-19T11:35:30Z Ripp 1 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ==[[BIRD Data Access Protocol|Data Access Protocoles]]== ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== d9a36e0912b63d45ab0095523676e23f5d6cc437 2324 2323 2008-02-19T11:36:47Z Ripp 1 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocoles]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 60f2f34b8de18654a18467247ecec273a3a80b72 2325 2324 2008-02-19T11:40:12Z Ripp 1 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==BIRD Development == [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== a45280efba99ee402e0e3dd4a37db46aa82d44f7 2326 2325 2008-02-19T11:58:50Z Nguyen 15 /* BIRD Development */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== d5ad22d2537bbae45d2b32f1d821c7d51a173e78 2329 2326 2008-02-19T12:02:11Z Nguyen 15 /* [[BIRD Development]] */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 705b3b9fe7f5797e781bce39f68409418ef08bf7 2332 2329 2008-02-19T12:04:04Z Nguyen 15 /* [[BIRDQL]] Biological Query Language */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== a02e68e0295d8f055b5775f4eaec1dc339cf8002 File:Rulesbasic.jpg 6 1389 2290 2008-02-19T03:57:54Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Apriori.jpg 6 1390 2292 2008-02-19T04:03:49Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Kddstep.jpg 6 1391 2299 2008-02-19T04:46:31Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Kddsetp2.jpg 6 1392 2300 2008-02-19T04:46:52Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Algo3.jpg 6 1393 2303 2008-02-19T05:21:11Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Modelview.jpg 6 1394 2305 2008-02-19T05:26:48Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 BIRDQL 0 1395 2317 2008-02-19T11:28:24Z Ripp 1 New page: ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these... wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 18f6eacab7915506a4c77ae5df2326b800597b8f 2318 2317 2008-02-19T11:28:48Z Ripp 1 wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 9e2c4bd4bbfe37662db4fb32e198546ab165a04b BIRD Data Access Protocol 0 1396 2322 2008-02-19T11:34:11Z Ripp 1 New page: ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/Bir... wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by BIRD-QL Service=== Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file e35a3c6480c9630285d6e3a1130f70a7f0897f5e BIRD Development 0 1397 2327 2008-02-19T11:59:40Z Nguyen 15 New page: [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].... wikitext text/x-wiki [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public ad8aeab6dd9191f6167b6de0e6db99a6e2ac0376 2328 2327 2008-02-19T12:01:06Z Nguyen 15 Replacing page with ' ===Project Distribution=== Not net to public' wikitext text/x-wiki ===Project Distribution=== Not net to public fd536a86fe80b326107fa8bef5b4577803e7fc79 2330 2328 2008-02-19T12:02:26Z Nguyen 15 /* Project Distribution */ wikitext text/x-wiki ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public 3594fdf62f2ed51412451313ed6ecd5e2b17ef48 2331 2330 2008-02-19T12:03:06Z Nguyen 15 /* Origin BIRD System */ wikitext text/x-wiki ===Origin [[BIRD]] System=== [[BIRD]] was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public 866dcc8d8d235c50744922f2295da2a23cd9cba0 BIRD 0 1313 2333 2332 2008-02-19T12:05:27Z Nguyen 15 /* [[BIRDQL]] Biological Query Language */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== b2775977f41fcecf547e5367fa29fe7af7764968 2334 2333 2008-02-19T12:06:19Z Nguyen 15 /* [[BIRD Development]] */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 0938fecb934b03edeb98f50c019a78e6a960ba22 2335 2334 2008-02-21T10:43:46Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 266800ac3e72aa66cf97ee97edfc20c782eef48e 2336 2335 2008-02-21T15:35:54Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 4eec324358ceaeae60941f7e63638d6c9076e86f 2337 2336 2008-02-21T15:52:36Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database or an inductive database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. User could uses BIRD-QL for mining pertinent information or analyzing the relational patterns by using descriptive patterns (association rules, etc) integrated in BIRD-QL. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 0d02ddb917ba62654c6b7a5143c85b3a6d04aebe 2338 2337 2008-02-21T15:54:02Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database or an inductive database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. User could uses BIRD-QL for mining pertinent information or analyzing the relational patterns by using descriptive patterns of BIRD-QL engine. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 11cab33cc2d3a3150a425a22abd76668b891d5c5 2340 2338 2008-02-22T16:35:17Z Nguyen 15 /* GPS uses BIRDQL engine */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database or an inductive database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. User could uses BIRD-QL for mining pertinent information or analyzing the relational patterns by using descriptive patterns of BIRD-QL engine. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==BIRD Data Access Protocoles== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 3706ce41b7986fcbdb4c2cfc7c947b221b0c1726 2341 2340 2008-02-25T12:45:27Z Nguyen 15 /* BIRD Data Access Protocoles */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server. BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database or an inductive database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. User could uses BIRD-QL for mining pertinent information or analyzing the relational patterns by using descriptive patterns of BIRD-QL engine. The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]es== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 1240ccf6aa1bc9c1739100c9bdf5c01440ac19e1 2349 2341 2008-03-13T07:59:01Z Nguyen 15 /* What is BIRD System */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASES List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]es== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 554db73ca86fd9aab3aa30a6039d1933b9101f78 2350 2349 2008-03-13T07:59:47Z Nguyen 15 /* Data Format & DATABASES List */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]es== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== e33cdf79287c38bee127ab3b791cab4daa65eb8c 2351 2350 2008-03-13T08:05:42Z Nguyen 15 /* [[BIRDQL]] Biological Query Language */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]es== Several protocoles are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 40bfa4c92048ad5df08ac1167e46d785feb1f38b 2352 2351 2008-03-13T08:06:20Z Nguyen 15 /* [[BIRD Data Access Protocol]]es */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural structures where the placement of neurons is orderly and reflects structure of external (sensed) stimuli (e.g. in auditory and visual pathways). K-map learns, when continuous-valued input vectors are presented to it without specifying the desired output. The weights of connections can adjust to regularities in input. Large number of examples is needed. K-map mimics well learning in biological neural structures. It is usable in speech recognizer This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 79035e94c99bcd44ce211994bfb6dba556be5923 2353 2352 2008-03-13T08:12:05Z Nguyen 15 /* Kohonen´s feature maps */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Miner Intelligent (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics by using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find most important fields by using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 6c58b10dc00c153215c345fad376eb0f3e13b8ba 2354 2353 2008-03-13T08:13:47Z Nguyen 15 /* DB2 Miner Intelligent (API) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, does there exist any relationships between nucleotides? If yes, does a mutation of the one nucleotid also influence the other ones and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we then find indicators that are probably responsible for mutation? � Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA sequence that has a single occurrence in the human genome. Can we detect such STSs using KDD? � Genetic disorders resulting from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles; therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD ? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referenced as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 964105774abb55cf34cf14d4d4eff9169a12fcf3 2355 2354 2008-03-13T08:17:17Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] BIRD System is core of Décrypthon Data Center. Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..) runing on Décrypthon Grid. Managing of generated data (result) on grid Sharing of data and services for scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 9262c0b80ee360dcd91f66ea6df6e92623fbf6b7 2356 2355 2008-03-13T08:19:08Z Nguyen 15 /* Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Macsim uses BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist . Macsim gets direct connection with Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 74a787cfcc022092af56011e89c3e85356cd9e4c 2357 2356 2008-03-13T08:21:07Z Nguyen 15 /* Macsim uses BIRDQL engine */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 2b54f7ac66ce5b3918046d84245b427c7702e4e0 2358 2357 2008-03-13T08:21:25Z Nguyen 15 /* GPS uses BIRDQL engine */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope peut se mettre maintenant en connexion directe avec Bird * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 0a50e38804228610fdb2f805c9cea5c34907961f 2359 2358 2008-03-13T08:24:08Z Nguyen 15 /* Gscope utilise BIRD */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD business intelligence == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== a2b380a764e2d9080d13f2c9bffef34ef316d2c3 2373 2359 2008-04-07T12:09:14Z Nguyen 15 /* BIRD business intelligence */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action == ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 275e6b4d0663a04a42e21070f3c7b322b1ecee1f 2374 2373 2008-04-07T12:11:00Z Nguyen 15 /* BIRD System in Action */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== bb69e5febf60c6e099c896da21d9d352c13602b1 2375 2374 2008-04-07T12:12:13Z Nguyen 15 /* Data Format & DATABASE List */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] [[Image:kddsetp2.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 87d91697e6a9c59a47d3ac6e1c40d2531f14f493 2376 2375 2008-04-07T12:13:09Z Nguyen 15 /* Theories and Functionalities */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 0e47df6e593f3bd40de01c1965cc17c6778e79b2 2377 2376 2008-04-07T12:14:55Z Nguyen 15 /* Association rule learning */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ===Kownledge Discovery in Biological Database=== Some questions ? � Can we perform sequence analysis in order to detect sequence patterns that occur very often in the chromosome? � If a mutation takes place in a chromosome, are there any relationships between nucleotides? If so, does a mutation of one nucleotide influence the others and can we use one of the techniques described above to find such relationships? � If we translate the activities of the nucleotides into a frequency, can we then detect similar sequences that occur over time? Can we find indicators that are probably responsible for the mutations? � Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA sequences that have a single occurrence in the human genome. Can we detect such STSs using KDD? � Some genetic disorders result from the combined action of alleles of more than one gene (for example, heart disease, diabetes, and some cancers). Although such disorders are inherited, they depend on the simultaneous presence of several alleles. Therefore, the hereditary patterns are usually more complex than those of single gene disorders. Can we detect such polygenic disorders using KDD? � A problem in bioinformatics is the determination of the order of the nucleotides in a DNA molecule or the order of amino acids in a protein. This is referred to as sequencing. Can we detect such poly genic disorders using KDD? ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== a9c14f9df5a58ba088659044b1b5f32015444b71 2379 2377 2008-04-07T12:18:35Z Nguyen 15 /* Kownledge Discovery in Biological Database */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 90019f6c9ce71ab5525d73985ea3e1bfeb7a041e 2380 2379 2008-04-07T12:23:17Z Nguyen 15 /* BIRD KDD-Knowledge Discovery */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== b8ada976db23fff8b57cb0add5158fccea0c7d9b 2381 2380 2008-04-07T12:27:06Z Nguyen 15 /* DB2 Intelligent Miner (API) */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== ef7d625f0284005c060a3b254fe7898e84afb34a BIRDQL 0 1395 2339 2318 2008-02-22T11:41:00Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT a7251bcd8d0d6d4925c5804c13e98e241af715e6 2343 2339 2008-02-26T11:45:08Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 7''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 8''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 7b518ad052cd2e7f2931a4fd5151aa4073756468 2344 2343 2008-02-26T11:45:40Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 755ca28f6261a3141588916294c0cca0335a522b 2345 2344 2008-02-26T11:46:18Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 34e0524e4f54045a854bbefc095d952e8456e667 2346 2345 2008-02-26T11:46:49Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT d0a7dd7c46a5396b4c8f1a495b7ac4b37cda0c1f 2348 2346 2008-03-05T09:06:37Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or GEO) (authorized user) ID * DB SAGEData WH TAG contains "AAAAABBBBB" FD Experience Limit 1000 FM FLAT '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT db883368966b25d49ae3152bba71003b94d55619 2363 2348 2008-03-31T09:47:02Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or GEO) (authorized user) ID * DB GEO WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB GEO WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 8ed3739c1741c8687aef4048d0461a63c2083667 2364 2363 2008-03-31T10:01:25Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or GEO) (authorized user) ID * DB GEO WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB GEO WH SQLNATIVE select e.key_fk,e.tag,e.count from GEOSAGE.entry as e, GEOSAGE.header as h where (h.sample_id=e.key_fk and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB GEO WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 1d305762f0c8ce955dce1e70c297c22af71e1f45 2368 2364 2008-03-31T14:00:26Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Data can also be selected with Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or GEO) (authorized user) ID * DB GEO WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB GEO WH SQLNATIVE select e.key_fk,e.tag,e.count from GEOSAGE.entry as e, GEOSAGE.header as h where (h.sample_id=e.key_fk and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB GEO WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT fa518e5c7dbe3d9025ab1b8034f1c084d4d771f7 2369 2368 2008-03-31T14:01:07Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Data can also be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or GEO) (authorized user) ID * DB GEO WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB GEO WH SQLNATIVE select e.key_fk,e.tag,e.count from GEOSAGE.entry as e, GEOSAGE.header as h where (h.sample_id=e.key_fk and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB GEO WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT bf92ca7df436ee265c70da34dff246f47c942b73 2370 2369 2008-04-02T14:43:26Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Data can also be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE "select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3" LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MGEO WH SQLNATIVE select sample_id,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT cd782017291fa2cc35a6847e8c35073d17f451f5 2371 2370 2008-04-03T09:47:49Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID ===BIRDQL example=== Data can also be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE "select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3" LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 74fbee6f7200326aa9b5d27793be46107f2f8781 BIRD Data Access Protocol 0 1396 2342 2322 2008-02-26T11:40:28Z Nguyen 15 /* Data Selection by BIRD-QL Service */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file b3e4c7d62d8b293aa4bbf95244ec212394e54c6e Bibliothèque interne 0 1343 2347 1711 2008-02-26T13:56:29Z Dkieffer 2 /* UML et les Design Patterns */ wikitext text/x-wiki Liste des livres disponibles pour le [[LBGI]]. Adressez vous à Laetitia Gonzalez pour leur disponibilité. =PHP= ==PHP 5 avancé== *Editeur : Eyrolles; *Édition : 3e édition (2 Oct 2006) *Langue : Français *ISBN: 2212120044 =javascript= ==Javascript: The Definitive Guide== *Autheur: David Flanagan *Editeur : O'Reilly Media; *Édition : 4th (12 Fév 2006) *Collection : Classique Us *Langue : Français *ISBN: 0596000480 =java= ==The Definitive Guide To Java Swing== *Autheur: de John Zukowski *Editeur : Apress; *Édition : 3rd (Jui 2005) *Langue : Anglais *ISBN: 1590594479 ==JSP Professionnel== *Editeur : Eyrolles (7 Fév 2001) *Collection : Wrox, solutions développeurs *Langue : Français *ISBN: 2212092474 ==Spring par la pratique : Mieux développer ses applications Java/J2EE avec Spring, Hibernate, Struts, Ajax...== *Editeur : Eyrolles (28 avril 2006) *Langue : Français *ISBN: 2212117108 ==Hibernate 3.0 : Gestion optimale de la persistance dans les applications Java/J2EE== *Autheurs: Anthony Patricio, Olivier Salvatori *Editeur : Eyrolles (16 Jui 2005) *Langue : Français *ISBN: 2212116446 =R= ==Bioinformatics And Computational Biology Solutions Using R And Bioconductor== *auteurs : Robert Gentleman, Wolfgang Huber, Sandrine Dudoit *Editeur : Springer (Août 2005) *Langue : Anglais *ISBN: 0387251464 =POO= ==Conception et Programmation orientées objet== *Autheurs: Bertrand Meyer *Editeur : Eyrolles (22 Juil 2000) *Langue : Français *ISBN: 2212091117 ==UML2 et les Design Patterns== *Autheur: Craig Larman *Editeur : CampusPress (22 Fév 2002) *Collection : Campus Press *Langue : Français *ISBN: 2744013013 =Database= ==PostgreSQL: The comprehensive guide to building, programming, and administering PostrgreSQL databases== *Editeur : Sams; *Édition : 2nd (1 Août 2005) *Langue : Anglais *ISBN: 0672327562 2422889553726ae4b4c39082a0d9291f3957fb8a Main Page 0 1279 2360 2232 2008-03-25T10:21:04Z Moumou 17 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 9813f595b6e5f071a52282fd7a0c568d25360781 Configuration minimale 0 1398 2361 2008-03-25T10:28:39Z Moumou 17 New page: Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star: * definition des imprimantes: hp0098, hp0107 et splash ... wikitext text/x-wiki Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star: * definition des imprimantes: hp0098, hp0107 et splash * DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation. * Compilateur C/C++ avec l'ensemble des librairies. * Installation des librairies OpenGL (GL, GLX, GLut, ...). d4b63bed5183328d6370213bf81c65d4b49e6007 2362 2361 2008-03-25T13:20:29Z Dkieffer 2 wikitext text/x-wiki Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star: =Configuration= * Définition des imprimantes: hp0098, hp0107 et splash =Librairies de programmations= * DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation. * Compilateur C/C++ avec l'ensemble des librairies. * Installation des librairies OpenGL (GL, GLX, GLut, ...). =Applications= *Client svn. bbb68e9018d06d215d7a7ab91b20038f6702342b R 0 1320 2365 2080 2008-03-31T10:14:57Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.6.2 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Mar 08).<br> L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() . Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.6.2 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 313142c52034e052a99ae2bb5fde463a5e8443fb RReportGenerator English 0 1366 2366 2056 2008-03-31T10:16:53Z Wraff 5 wikitext text/x-wiki [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI). <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks. Reference: <br>The program is published and accessible as open access : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br> ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278] Limitations:<br> The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases. In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br> Physical/compoutatinal limitations:<br> Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development. <br>... voir cette page en Francais : [[RReportGenerator]] 3572729bf52774ff49288f11410d84d31b81fcc0 2367 2366 2008-03-31T10:19:33Z Wraff 5 wikitext text/x-wiki [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI). <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks. Reference: <br>The program is published and accessible as open access : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br> RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278] Limitations:<br> The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases. In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br> Physical/compoutatinal limitations:<br> Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development. <br>... voir cette page en Francais : [[RReportGenerator]] 6d1ece261b8f6dfd90920b8e9448877acd7f55fd Tcl/Tk 0 1323 2372 1518 2008-04-04T12:46:40Z Moumou 17 wikitext text/x-wiki * Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]]) il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl * Starkit Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme. Un starkit s'utilise de la façon suivante : $ tclsh % source MyPkg.kit % package require MyPkg Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit) decompresser le starkit star123_> tclkit sdx.kit unwrap LRIPHoto.kit Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc. Bidouiller ce que vous voulez. Recréer le starkit star123_> tclkit sdx.kit LRIPhoto.kit et hop ! * CriTcl CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc. On peut également créer une librairie dynamique. Pour LRIPhoto, tclkit critcl.kit -lib LRIPhoto On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit. 7710de4762e805cba2f7c203af72ad74eac8c888 File:Birdqlrules.jpg 6 1399 2378 2008-04-07T12:17:05Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Deviation.jpg 6 1400 2382 2008-04-07T12:27:23Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 BIRDQL 0 1395 2383 2371 2008-04-07T12:29:31Z Nguyen 15 /* BIRDQL Grammar */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can also be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE "select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3" LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT bd10c7fe80b51cbfea661e470a52fb6cc36c3a30 2385 2383 2008-04-07T12:30:24Z Nguyen 15 /* BIRDQL Grammar */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can also be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE "select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3" LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT b5c4d74571f0e7afaae7f94737c435e09f4e384c 2394 2385 2008-04-18T04:52:10Z Nguyen 15 wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can also be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT e4fbbc9caabf585fa024d950b8dfbf51a6632a4c 2395 2394 2008-04-18T10:03:21Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can also be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT f40b262aa7685d24be01e7e8d56b6fd8a6a17f3f 2399 2395 2008-04-23T09:05:22Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 22ff81220f0b4380961e1229f67bfd61b87b5c47 2400 2399 2008-04-23T09:05:42Z Nguyen 15 /* BIRDQL in few words */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 8db78daf16cf550998299ba6dde7147a44af6e8e 2417 2400 2008-05-22T12:16:28Z Dkieffer 2 /* BIRDQL Grammar */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB <bank names> WH Field[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out> LM <n> FM Fasta/Flat/Xml/CSV/Simple/Object/OID [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT b56ad133e927e8e1c397ff8c7d60fc33beee3f11 2429 2417 2008-05-26T09:12:36Z Dkieffer 2 /* BIRDQL Grammar */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT 0ac4e406b53044734502dda99cb942b2940622ab File:Birdoverivew.jpg 6 1401 2384 2008-04-07T12:29:52Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 Configuration minimale 0 1398 2386 2362 2008-04-07T14:46:44Z Prigent 20 wikitext text/x-wiki Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star: =Configuration= * Définition des imprimantes: hp0098, hp0107 et splash =Librairies de programmations= * DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation. * Compilateur C/C++ avec l'ensemble des librairies. * Installation des librairies OpenGL (GL, GLX, GLut, ...). =Applications= *Client svn. =Cronjobs= * Lister les cronjobs avant la mise à jour système puis les ré-installer. 75ec7cce719c6751c7ab8b2b2d0758647cdc58fc 2387 2386 2008-04-07T14:47:32Z Prigent 20 /* Cronjobs */ wikitext text/x-wiki Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star: =Configuration= * Définition des imprimantes: hp0098, hp0107 et splash =Librairies de programmations= * DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation. * Compilateur C/C++ avec l'ensemble des librairies. * Installation des librairies OpenGL (GL, GLX, GLut, ...). =Applications= *Client svn. =Cronjobs= * Lister les cronjobs '''avant''' la mise à jour système. Les ré-installer après la mise à jour système. fc7c6d58480339aa99d16b07ae9f22d92c9bba4d 2388 2387 2008-04-07T14:47:47Z Prigent 20 /* Cronjobs */ wikitext text/x-wiki Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star: =Configuration= * Définition des imprimantes: hp0098, hp0107 et splash =Librairies de programmations= * DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation. * Compilateur C/C++ avec l'ensemble des librairies. * Installation des librairies OpenGL (GL, GLX, GLut, ...). =Applications= *Client svn. =Cronjobs= * Lister les cronjobs '''avant''' la mise à jour système. Les ré-installer après la mise à jour système. b832c45f90b0c109f5aa81db19ec4817e65b699c 2389 2388 2008-04-07T14:48:11Z Prigent 20 /* Cronjobs */ wikitext text/x-wiki Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star: =Configuration= * Définition des imprimantes: hp0098, hp0107 et splash =Librairies de programmations= * DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation. * Compilateur C/C++ avec l'ensemble des librairies. * Installation des librairies OpenGL (GL, GLX, GLut, ...). =Applications= *Client svn. =Cronjobs= * Lister les cronjobs '''avant''' la mise à jour système. Les ré-installer après la mise à jour système. fc7c6d58480339aa99d16b07ae9f22d92c9bba4d 2390 2389 2008-04-07T14:48:31Z Prigent 20 /* Cronjobs */ wikitext text/x-wiki Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star: =Configuration= * Définition des imprimantes: hp0098, hp0107 et splash =Librairies de programmations= * DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation. * Compilateur C/C++ avec l'ensemble des librairies. * Installation des librairies OpenGL (GL, GLX, GLut, ...). =Applications= *Client svn. =Cronjobs= * Lister les cronjobs '''avant la mise à jour système'''. Les ré-installer après la mise à jour système. d31f6caa1157aae8fefdcf210f9a24afeed4a336 BIRD 0 1313 2391 2381 2008-04-10T10:26:33Z Nguyen 15 /* Data Format & DATABASE List */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO-NCBI(SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 1022325e43290e8eb6b2f559a46c390465269327 2392 2391 2008-04-10T14:37:17Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO-NCBI(SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. download PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 7cf1e951a5d683ab29d8bcb8ff1ef6be6eceadd6 2393 2392 2008-04-10T14:38:29Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO-NCBI(SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== e6bd27139536bbe9522e11b1241c03e925fb67ce 2396 2393 2008-04-18T10:05:26Z Nguyen 15 /* Data Format & DATABASE List */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==BIRD System in Action== ===Décrypthon Data Center=== ====Overview==== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===MACSIMS uses the BIRDQL engine=== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ===GPS uses the BIRDQL engine=== http://gps.nucleic.fr ===Gscope utilise BIRD=== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== b178d9f23c7fafb392054f5b69e00aace920bc76 2402 2396 2008-04-25T15:02:14Z Nguyen 15 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== b7244eac06281e043f648f34137854f29baa767c 2403 2402 2008-04-25T15:04:21Z Nguyen 15 /* Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== f2d9b9a750de6260225d9847ef06b806c4a4c0f2 2420 2403 2008-05-22T15:24:42Z Nguyen 15 /* Data Format & DATABASE List */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==Data Format & DATABASE List == 1. GENBANK DATABASES GBEST : GENBANK EST GBWGS : GENBANK WGS GBRL : GENNANK RELEASE GBNEW : GENNANK NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW 2. RESEQ DATABASES REFSEQP :REFSEQ PROTEIN REFSEQG :REFSEQ GENOMIC REFSEQRNA :REFSEQ RNA REFSEQNEW :REFSEQ NEW REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW 3. UNIPROT DATABASES UNIPROT :Swiss-Prot, TrEMB 4. STRUCTURE PDB: PDB: Protein Data Bank 5. GEO DATABASE MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) 6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... 7. ALIAS Database Names : PROTEIN: UNIPROT +PDB +REFSEQP REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 22fb125dfff74fb1b031b7d787a44f07111022fc 2421 2420 2008-05-22T15:26:43Z Nguyen 15 /* Data Format & DATABASE List */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASE List & Data Format == 1. GENBANK DATABASES ''GBEST '' : GENBANK EST GBWGS : GENBANK WGS GBRL : GENNANK RELEASE GBNEW : GENNANK NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW 2. RESEQ DATABASES REFSEQP :REFSEQ PROTEIN REFSEQG :REFSEQ GENOMIC REFSEQRNA :REFSEQ RNA REFSEQNEW :REFSEQ NEW REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW 3. UNIPROT DATABASES UNIPROT :Swiss-Prot, TrEMB 4. STRUCTURE PDB DATABASE PDB: Protein Data Bank 5. GEO DATABASE MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) 6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... 7. ALIAS Database Names : PROTEIN: UNIPROT +PDB +REFSEQP REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 513f0582d6d501d256f95371fe52a16b0f93387b 2422 2421 2008-05-22T15:28:31Z Nguyen 15 /* DATABASE List & Data Format */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASE List & Data Format == These database below are available in BIRD System. We could exploie these data by 1. GENBANK DATABASES GBEST : GENBANK EST GBWGS : GENBANK WGS GBRL : GENNANK RELEASE GBNEW : GENNANK NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW 2. RESEQ DATABASES REFSEQP :REFSEQ PROTEIN REFSEQG :REFSEQ GENOMIC REFSEQRNA :REFSEQ RNA REFSEQNEW :REFSEQ NEW REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW 3. UNIPROT DATABASES UNIPROT :Swiss-Prot, TrEMB 4. STRUCTURE PDB DATABASE PDB: Protein Data Bank 5. GEO DATABASE MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) 6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... 7. ALIAS Database Names : PROTEIN: UNIPROT +PDB +REFSEQP REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 2668bf07b3df47a9c40f5769be6b6d4384a27009 2423 2422 2008-05-22T15:29:17Z Nguyen 15 /* DATABASE List & Data Format */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASE List & Data Format == These database below are available in BIRD System. We could exploie these data by [BIRD Data Access Protocol] 1. GENBANK DATABASES GBEST : GENBANK EST GBWGS : GENBANK WGS GBRL : GENNANK RELEASE GBNEW : GENNANK NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW 2. RESEQ DATABASES REFSEQP :REFSEQ PROTEIN REFSEQG :REFSEQ GENOMIC REFSEQRNA :REFSEQ RNA REFSEQNEW :REFSEQ NEW REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW 3. UNIPROT DATABASES UNIPROT :Swiss-Prot, TrEMB 4. STRUCTURE PDB DATABASE PDB: Protein Data Bank 5. GEO DATABASE MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) 6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... 7. ALIAS Database Names : PROTEIN: UNIPROT +PDB +REFSEQP REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 2002212510094354ba3c394ea9c4c118f9edb347 2424 2423 2008-05-22T15:29:51Z Nguyen 15 /* DATABASE List & Data Format */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASE List & Data Format == These database below are available in BIRD System. We could exploie these data by [[BIRD Data Access Protocol]] 1. GENBANK DATABASES GBEST : GENBANK EST GBWGS : GENBANK WGS GBRL : GENNANK RELEASE GBNEW : GENNANK NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW 2. RESEQ DATABASES REFSEQP :REFSEQ PROTEIN REFSEQG :REFSEQ GENOMIC REFSEQRNA :REFSEQ RNA REFSEQNEW :REFSEQ NEW REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW 3. UNIPROT DATABASES UNIPROT :Swiss-Prot, TrEMB 4. STRUCTURE PDB DATABASE PDB: Protein Data Bank 5. GEO DATABASE MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) 6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... 7. ALIAS Database Names : PROTEIN: UNIPROT +PDB +REFSEQP REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== d5ace9c838a012d8e16ced9ab2f98ae438a14563 2425 2424 2008-05-22T15:54:19Z Nguyen 15 /* DATABASE List & Data Format */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==DATABASE List & Data Format == These database below are available in BIRD System. We could exploie these data by [[BIRD Data Access Protocol]] 1. GENBANK DATABASES GBEST : GENBANK EST GBWGS : GENBANK WGS GBRL : GENNANK RELEASE GBNEW : GENNANK NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW 2. RESEQ DATABASES REFSEQP :REFSEQ PROTEIN REFSEQG :REFSEQ GENOMIC REFSEQRNA :REFSEQ RNA REFSEQNEW :REFSEQ NEW REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW 3. UNIPROT DATABASES UNIPROT :Swiss-Prot, TrEMB 4. STRUCTURE PDB DATABASE PDB: Protein Data Bank 5. GEO DATABASE MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) 6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... 7. ALIAS Database Names : PROTEIN: UNIPROT +PDB +REFSEQP REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW NUCLEOTIDE : =GBFULL *Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== d71889666349cc77dabbf84c49deea0ce8f20a8a 2431 2425 2008-05-26T09:19:28Z Dkieffer 2 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== 549d141a4a9cf17fca8fe6e71d118caebf19465e 2432 2431 2008-05-26T09:21:44Z Dkieffer 2 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 76d28fb880e901723f79d21f664ed2abfceb2bbe BIRD Data Access Protocol 0 1396 2397 2342 2008-04-23T09:03:24Z Nguyen 15 /* Data Browsing at Décrypthon Data Center */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB (under construction) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file 4b273b31f8d529cf993d0a8c3b2a79848128730e 2398 2397 2008-04-23T09:03:53Z Nguyen 15 /* WEB Server */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB (under construction) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Trois query service are available: 1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql' 2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query= ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA 3. BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file 18f7fc4dd5aaeee7a3d853e9b50a40518f29bd37 2418 2398 2008-05-22T12:57:12Z Dkieffer 2 /* Data Selection by BIRDQL Service */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB (under construction) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> ## Example: ###<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> ###<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file 262a675b9a6fb9560a2fae44ec94d7a9fe2e4769 2419 2418 2008-05-22T13:01:55Z Dkieffer 2 /* Data Selection by BIRDQL Service */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB (under construction) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). User can use this engine for intensive computation, download [birdql cmd]. Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ed4a6610a7c604e12fd522b42cb28c9b32cc3a7d 2427 2419 2008-05-26T08:52:45Z Dkieffer 2 /* Data Selection by BIRDQL Service */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB (under construction) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. // API BIRD Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } // BIRDQL CLient java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file c601b82e5cfa74b38a4a7050a0cf35747593b950 2428 2427 2008-05-26T09:01:01Z Dkieffer 2 /* API JAVA - BIRDQL Client */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB (under construction) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. 29be687d524b6586c4707e9ef0e5b3018fcd1bd6 Tcl/Tk 0 1323 2401 2372 2008-04-24T13:21:59Z Ripp 1 wikitext text/x-wiki * Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...) * Starkit Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme. Un starkit s'utilise de la façon suivante : $ tclsh % source MyPkg.kit % package require MyPkg Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit) decompresser le starkit star123_> tclkit sdx.kit unwrap LRIPHoto.kit Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc. Bidouiller ce que vous voulez. Recréer le starkit star123_> tclkit sdx.kit LRIPhoto.kit et hop ! * CriTcl CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc. On peut également créer une librairie dynamique. Pour LRIPhoto, tclkit critcl.kit -lib LRIPhoto On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit. f31beb733955f15ee21866995c9eb453f8111621 2407 2401 2008-05-15T09:52:32Z Ripp 1 wikitext text/x-wiki [[EuroTcl]] European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/] * Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...) * Starkit Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme. Un starkit s'utilise de la façon suivante : $ tclsh % source MyPkg.kit % package require MyPkg Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit) decompresser le starkit star123_> tclkit sdx.kit unwrap LRIPHoto.kit Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc. Bidouiller ce que vous voulez. Recréer le starkit star123_> tclkit sdx.kit LRIPhoto.kit et hop ! * CriTcl CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc. On peut également créer une librairie dynamique. Pour LRIPhoto, tclkit critcl.kit -lib LRIPhoto On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit. 3f1dc7624831a22b2f684c368a01389b7ce29afd 2408 2407 2008-05-15T09:52:55Z Ripp 1 wikitext text/x-wiki [[EuroTcl]] European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] * Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...) * Starkit Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme. Un starkit s'utilise de la façon suivante : $ tclsh % source MyPkg.kit % package require MyPkg Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit) decompresser le starkit star123_> tclkit sdx.kit unwrap LRIPHoto.kit Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc. Bidouiller ce que vous voulez. Recréer le starkit star123_> tclkit sdx.kit LRIPhoto.kit et hop ! * CriTcl CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc. On peut également créer une librairie dynamique. Pour LRIPhoto, tclkit critcl.kit -lib LRIPhoto On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit. 6eede2c725e79136cd98dd84cc21775cd0a77dae Java 0 1293 2404 2042 2008-04-30T14:48:15Z Gagniere 3 /* Manipuler le format RSF en Java */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]] A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java . ==Projets internes liés à Java== *[[IBISSA]] *[[BIRD]] *[[JMacs]] *[[JavOO]] ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <source lang="xml"> <?xml version="1.0" encoding="UTF-8" ?> <rsf> <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> </source> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] [[Category:Programmation]] 6626b63a4d3a2cef346c147569706663f7670077 2405 2404 2008-04-30T19:02:28Z Gagniere 3 /* Manipuler le format RSF en Java */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]] A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java . ==Projets internes liés à Java== *[[IBISSA]] *[[BIRD]] *[[JMacs]] *[[JavOO]] ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <source lang="xml"> <?xml version="1.0" encoding="UTF-8" ?> <rsf> <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> </source> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] [[Category:Programmation]] e18f7fc689929ac2eb737868ad3ca21e1f353b1d MediaWiki:Sidebar 8 1402 2406 2008-05-02T09:37:00Z Gagniere 3 New page: * navigation ** mainpage|mainpage ** portal-url|portal ** currentevents-url|currentevents ** recentchanges-url|recentchanges ** randompage-url|randompage ** helppage|help ** sitesupport-ur... wikitext text/x-wiki * navigation ** mainpage|mainpage ** portal-url|portal ** currentevents-url|currentevents ** recentchanges-url|recentchanges ** randompage-url|randompage ** helppage|help ** sitesupport-url|sitesupport * syntax help ** http://www.mediawiki.org/wiki/Help:Contents|Mediawiki ** http://www.mediawiki.org/wiki/Extension:Cite/Cite.php|Cite Extension ** http://www.mediawiki.org/wiki/Extension:SyntaxHighlight_GeSHi|SyntaxHighlight Extension ** http://meta.wikimedia.org/wiki/ParserFunctions|ParserFunctions Extension d0130e2d72b7e892531dcc89b042455b898f68e6 EuroTcl 0 1403 2409 2008-05-15T09:54:52Z Ripp 1 New page: The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 wikitext text/x-wiki The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 529034e1bf68b22dec28e2a7ae26e37d7628611d 2410 2409 2008-05-15T12:21:51Z Ripp 1 wikitext text/x-wiki The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 Presentation from Raymond Ripp de218760040028736b4d46e3d29e85a5100d5929 2411 2410 2008-05-15T15:05:08Z Ripp 1 wikitext text/x-wiki The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 ==Presentation from Raymond Ripp== Biology studies are no more possible without intensive use of computers and databases. In our Laboratory of Integrative BioInformatic and Genomics (LBGI) we developped, in Tcl/Tk, the tools allowing the analysis and management of the huge amount of heterogeneous data produced locally or by numerous worldwide bioinformatic centers. It concerns various types of data such as genomic sequences, from single protein to whole genomes (3.4 GigaBases for the human genome) with their complex associated information stored in flat files, html pages or more or less well structured databases as well as sets of experimental results or data treament such as transcriptomics data, comparison searches, multiples alignments, image processing, etc. This necessitated the development of data retrieval, analysis and data mining tools, graphical interfaces and displays as well as specific databases and websites. 0226677bd90b9d7306a8d18b9ad009c46dfea4ea 2412 2411 2008-05-15T15:18:26Z Ripp 1 wikitext text/x-wiki The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 ==Presentation from Raymond Ripp== Biology studies are no more possible without intensive use of computers and databases. In our Laboratory of Integrative BioInformatic and Genomics (LBGI) we developped, in Tcl/Tk, the tools allowing the analysis and management of the huge amount of heterogeneous data produced locally or by numerous worldwide bioinformatic centers. It concerns various types of data such as genomic sequences, from single protein to whole genomes (3.4 GigaBases for the human genome) with their complex associated information stored in flat files, html pages or more or less well structured databases as well as sets of experimental results or data treaments such as transcriptomics data, comparison searches, multiples alignments, image processing, etc. This necessitated the development of high throughput data retrieval, analysis and data mining tools, graphical interfaces and displays as well as specific databases and websites. After a brief description of this context we will present how we tried to in a collaborative 71283806c77800e1ebbfc258714e7996aa934ede 2413 2412 2008-05-15T16:33:19Z Ripp 1 wikitext text/x-wiki The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 ==Presentation from Raymond Ripp== Biology studies are no more possible without intensive use of computers and databases. In our Laboratory of Integrative BioInformatic and Genomics (LBGI) we developped, in Tcl/Tk, the tools allowing the analysis and management of the huge amount of heterogeneous data produced locally or by numerous worldwide bioinformatic centers. It concerns various types of data such as genomic sequences, from single protein to whole genomes (3.4 GigaBases for the human genome) with their complex associated information stored in flat files, html pages or more or less well structured databases as well as sets of experimental results or data treaments such as transcriptomics data, comparison searches, multiples alignments, image processing, etc. This necessitated the development of high throughput data retrieval, analysis and data mining tools, graphical interfaces and displays as well as specific databases and websites. After a brief description of this context we will present our Tcl/Tk developments made since 10 years by around 15 people including biologists and students with very often minor background in programming languages. Tcl is easy to learn and allow to make progress quickly. ce9afa547afa4b76ff47e6ef8cbcb101f223fe55 2414 2413 2008-05-16T07:23:17Z Ripp 1 wikitext text/x-wiki The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 ==Presentation from Raymond Ripp== Research in Biology is no more possible without intensive use of computers and databases. In our Laboratory of Integrative BioInformatic and Genomics (LBGI), we developped tools in Tcl/Tk allowing the analysis and management of a huge amount of heterogeneous data. This data is produced locally or by numerous worldwide bioinformatic centers. It covers various types of data such as biological sequences, from single protein or mRNA to whole genomes (3.4 GigaBases for the human genome), together with their complex features, as well as sets of experimental results or data treaments like transcriptomics data, comparison searches, multiples alignments, image processing, etc. The different types of data are stored in flat files, html pages or more or less well structured databases. Altogether this required the development of high throughput data retrieval, analysis procedures and data mining tools coupled to graphical interfaces and displays, and to specific databases and websites. After a brief description of this context, we will present our Tcl/Tk developments made since 10 years by around 15 people, including biologists and students with very often minor background in programming languages. Tcl is easy to learn and allows quick progress. d6f55aacedccb2caa083fbcbebf0907d083967db Main Page 0 1279 2415 2360 2008-05-20T13:19:24Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le [http://alnitak.u-strasbg.fr/LBGIki LBGIki] wiki top secret du LBGI. ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 5891912812bc99a228444612b02206a77896c58f 2416 2415 2008-05-20T13:19:59Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] wiki top secret du LBGI. ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 9405604bf606b038b8ec7967d1831f4483ef8fbc Café des sciences 0 1322 2426 1657 2008-05-23T13:51:41Z Ripp 1 /* par web */ wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ 3e6dd972832a8905733432aa6c447e947dfc2e3b Bird Databases List 0 1404 2430 2008-05-26T09:18:15Z Dkieffer 2 New page: These database below are available in BIRD System. We could explore these data by [[BIRD Data Access Protocol]] =GENBANK DATABASES= *GBEST : GENBANK EST *GBWGS : GENBANK WGS *GBRL ... wikitext text/x-wiki These database below are available in BIRD System. We could explore these data by [[BIRD Data Access Protocol]] =GENBANK DATABASES= *GBEST : GENBANK EST *GBWGS : GENBANK WGS *GBRL : GENNANK RELEASE *GBNEW : GENNANK NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW =REFSEQ DATABASES= *REFSEQP :REFSEQ PROTEIN *REFSEQG :REFSEQ GENOMIC *REFSEQRNA :REFSEQ RNA *REFSEQNEW :REFSEQ NEW *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW =UNIPROT DATABASES= *UNIPROT :Swiss-Prot, TrEMB =STRUCTURE PDB DATABASE= *PDB: Protein Data Bank =GEO DATABASE= *MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) =OTHER= *UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... =ALIAS Database Names= *PROTEIN: UNIPROT +PDB +REFSEQP *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *NUCLEOTIDE : =GBFULL Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). 089f0576698d1d175903e152e0ff94e436880161 Bird Website 0 1367 2433 1939 2008-05-26T09:22:22Z Dkieffer 2 wikitext text/x-wiki THe Bird Website is under development [[Category:Bird_project]] 65e17e18a432acf5242788f86ad909d3dc048bf0 BIRD Development 0 1397 2434 2331 2008-05-26T09:22:46Z Dkieffer 2 wikitext text/x-wiki ===Origin [[BIRD]] System=== [[BIRD]] was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. SAADA - Systèm d’Archivage Automatique des Données Astronomiques First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released. In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch. [[Image:saada_bird.jpg]] ===Conceptual Data Model=== In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time. [[Image:model1.jpg]] The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq. [[Image:model2.jpg]] This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes. ===Query Engine=== ===Data Integration=== [[Image:integration1.jpg]] The creation of a database goes through some principal stages : Initially the relational schema system (meta-model) is created when BIRD is installed. In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables . ===Architecture=== [[Image:bird_arch.jpg]] ===Key Technologies=== Relational Core store IBM DB2 WareHouse V9.1 WebSphere Federation Server WEB Server & Services IBM WebSphere Application Server ( main Portal) Tomcat Server (services, non graphic) Hibernate and JSF-Java Server Face Object Relational Mapping Web component XML & JAVA ===Project Distribution=== Not net to public [[Category:Bird_project]] d905a0f2cbcbc65694ecd7b7186e5dd1e214efff BIRD Data Access Protocol 0 1396 2435 2428 2008-05-26T09:24:45Z Dkieffer 2 wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from [[Bird Website | BIRD System WEB]] (under construction) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. [[Category:Bird_project]] cdc1abbd48c4dab2737ae55a6914855c9f50edb0 2440 2435 2008-06-02T17:58:38Z Nguyen 15 /* Data Browsing at Décrypthon Data Center */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from [[Bird Website | http://bird.u-strasbg.fr:8080/birdweb/]] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://bird.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. [[Category:Bird_project]] 748cfa2acd824c2941bbf2d52b3e98e0c20d5d29 2441 2440 2008-06-02T17:59:20Z Nguyen 15 /* Data Browsing at Décrypthon Data Center */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from [[Bird Website | http://decrypthon.u-strasbg.fr:8080/birdweb/]] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. [[Category:Bird_project]] 0e3cd94782d08529f24bf3bffb9d69edbd3c5edd 2442 2441 2008-06-02T18:00:12Z Nguyen 15 /* Data Browsing at Décrypthon Data Center */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. [[Category:Bird_project]] e57ca37bd6cead0384aab1fbee101205d4e24ad6 2469 2442 2008-06-09T13:46:03Z Dkieffer 2 /* BirdHttpClient */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] dbcfedabee870219971122249402653f273ab0b1 2470 2469 2008-06-09T14:33:05Z Nguyen 15 /* BIRD Data Access Protocol */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] eb8e80884d4571fd4774f13851d2948289d714a4 2471 2470 2008-06-09T14:33:26Z Nguyen 15 /* WEB Server */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: [http://decrypthon.u-strasbg.fr:8080/birdweb] (firefox) ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 9856d9b122a98b1b68436873619f1b7691b57e77 2472 2471 2008-06-09T14:33:33Z Nguyen 15 /* WEB Server */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: [http://decrypthon.u-strasbg.fr:8080/birdweb] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] cf25ef6d46ce4555399f1c795c3199b343d4bc3b 2476 2472 2008-06-13T15:56:04Z Nguyen 15 /* Data Selection by BIRDQL Service */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: [http://decrypthon.u-strasbg.fr:8080/birdweb] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 54ff2a088b11da6d35107de6c8e25e5e3ad1e5b3 Bird Databases List 0 1404 2436 2430 2008-05-26T09:25:04Z Dkieffer 2 wikitext text/x-wiki These database below are available in BIRD System. We could explore these data by [[BIRD Data Access Protocol]] =GENBANK DATABASES= *GBEST : GENBANK EST *GBWGS : GENBANK WGS *GBRL : GENNANK RELEASE *GBNEW : GENNANK NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW =REFSEQ DATABASES= *REFSEQP :REFSEQ PROTEIN *REFSEQG :REFSEQ GENOMIC *REFSEQRNA :REFSEQ RNA *REFSEQNEW :REFSEQ NEW *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW =UNIPROT DATABASES= *UNIPROT :Swiss-Prot, TrEMB =STRUCTURE PDB DATABASE= *PDB: Protein Data Bank =GEO DATABASE= *MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) =OTHER= *UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... =ALIAS Database Names= *PROTEIN: UNIPROT +PDB +REFSEQP *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *NUCLEOTIDE : =GBFULL Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). [[Category:Bird_project]] 845b5506271322778ef7fdd553e50e750622847d 2438 2436 2008-05-29T16:18:08Z Dkieffer 2 wikitext text/x-wiki These database below are available in [[Media:BIRD]] System. We could explore these data by [[BIRD Data Access Protocol]] =GENBANK DATABASES= *GBEST : GENBANK EST *GBWGS : GENBANK WGS *GBRL : GENNANK RELEASE *GBNEW : GENNANK NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW =REFSEQ DATABASES= *REFSEQP :REFSEQ PROTEIN *REFSEQG :REFSEQ GENOMIC *REFSEQRNA :REFSEQ RNA *REFSEQNEW :REFSEQ NEW *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW =UNIPROT DATABASES= *UNIPROT :Swiss-Prot, TrEMB =STRUCTURE PDB DATABASE= *PDB: Protein Data Bank =GEO DATABASE= *MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) =OTHER= *UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... =ALIAS Database Names= *PROTEIN: UNIPROT +PDB +REFSEQP *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *NUCLEOTIDE : =GBFULL Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). [[Category:Bird_project]] f36bb2e51d3c6edf3ec708b04b36a2760bba5d19 2439 2438 2008-05-29T16:18:26Z Dkieffer 2 wikitext text/x-wiki These database below are available in [[BIRD]] System. We could explore these data by [[BIRD Data Access Protocol]] =GENBANK DATABASES= *GBEST : GENBANK EST *GBWGS : GENBANK WGS *GBRL : GENNANK RELEASE *GBNEW : GENNANK NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW =REFSEQ DATABASES= *REFSEQP :REFSEQ PROTEIN *REFSEQG :REFSEQ GENOMIC *REFSEQRNA :REFSEQ RNA *REFSEQNEW :REFSEQ NEW *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW =UNIPROT DATABASES= *UNIPROT :Swiss-Prot, TrEMB =STRUCTURE PDB DATABASE= *PDB: Protein Data Bank =GEO DATABASE= *MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) =OTHER= *UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... =ALIAS Database Names= *PROTEIN: UNIPROT +PDB +REFSEQP *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *NUCLEOTIDE : =GBFULL Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). [[Category:Bird_project]] 13240edb8fb1a14ff84a93c9ffea2edda76b9697 Category:Bird project 14 1405 2437 2008-05-26T09:27:34Z Dkieffer 2 New page: BIRD System [[BIRD]]: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC Strasbourg. wikitext text/x-wiki BIRD System [[BIRD]]: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC Strasbourg. 231305a1db95fa643269fa4a394772b77dabcd21 BIRD 0 1313 2443 2432 2008-06-04T06:50:21Z Nguyen 15 /* BIRD KDD-Knowledge Discovery */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ===MAP Semantic=== ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 3a4d3673067efbde24cb95b8158615fd38c0a26f 2444 2443 2008-06-04T06:51:41Z Nguyen 15 /* MAP Semantic */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ===[MAP Semantic]=== ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] b20a8e800572b1eab50975a9b7ab446b589ab4d0 2445 2444 2008-06-04T06:52:05Z Nguyen 15 /* [MAP Semantic] */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[MAP Semantic]== ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] c02d0e8b5532be5ad42fc8a3a86dc7859cc078ff 2446 2445 2008-06-04T06:52:19Z Nguyen 15 /* [MAP Semantic] */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] cdf320af0c8112c7fda562d1bd0993a616a4fb45 2453 2446 2008-06-04T09:03:10Z Nguyen 15 wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==MAP Semantic== ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 6a9bef6675ece078f316359a909737b3b3ef1080 2454 2453 2008-06-04T09:04:21Z Nguyen 15 /* MAP Semantic */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==MAP Semantic== [[Image:Carte.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 23b56e2883db7fb1eddec3e46fe291adb3e1f58b 2455 2454 2008-06-04T09:04:46Z Nguyen 15 /* MAP Semantic */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[MAP Semantic]== [[Image:Carte.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 69150c1aa71d2d5fcf312f3549952f36b638f86b 2456 2455 2008-06-04T09:04:59Z Nguyen 15 /* [MAP Semantic] */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 1e90c005ba66dfe8bb473315350e21f765ab3561 2459 2456 2008-06-04T09:13:34Z Nguyen 15 /* MAP Semantic */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] ad0a12a95ffd07a484ba679e8e49105ceee564be 2460 2459 2008-06-04T09:16:30Z Nguyen 15 /* MAP Semantic */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 104405612853aae527b6e62bd06d69095377c3aa 2461 2460 2008-06-04T09:27:31Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data [[Bird_Databases_List]] and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 9dd26ba0a8c57c587e2753b28b1de520cc085d02 2462 2461 2008-06-04T09:27:52Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 1b1fba3abb5a3107bf9eb5708748a0ac4dee16c2 2467 2462 2008-06-09T11:14:44Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr:9080/birdweb] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] e8b64829bf462ad725212e8e16083b9e25022332 2468 2467 2008-06-09T11:14:55Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr:8080/birdweb] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==Décrypthon Data Center== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 89a0482c0e0caa555979d27c05b5ff6771f51273 MAP Semantic 0 1406 2447 2008-06-04T06:54:18Z Nguyen 15 New page: [[Image:Carte.PNG]] wikitext text/x-wiki [[Image:Carte.PNG]] 4a7581d8dea79f87555f25b5ba3a0e7d4afffa92 2449 2447 2008-06-04T06:57:21Z Nguyen 15 wikitext text/x-wiki [[Image:Carte.jpg]] 9ccdf9c48dd61274c6fbf5c3173338c8708826cb 2452 2449 2008-06-04T07:00:20Z Nguyen 15 wikitext text/x-wiki [[Image:Carte.jpg]] This project is under development a195256dab0d57f97123f86a8a24b8478afff15d 2457 2452 2008-06-04T09:10:11Z Nguyen 15 wikitext text/x-wiki [[Image:Carte.jpg]] The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project is under development 4207463099c6ecf261c9e74105a8d73363c0068c 2458 2457 2008-06-04T09:12:00Z Nguyen 15 wikitext text/x-wiki [[Image:Carte.jpg]] The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker&Hoan Nguyen ,...) f27fcca34a55066402422339677337d9bead3944 2463 2458 2008-06-04T09:29:51Z Nguyen 15 wikitext text/x-wiki [[Image:Carte.jpg]] The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker ,Hoan Nguyen ,Jeremy Trouslard..) 738a8a2fc83a146b679f503dee3b75514ae88488 File:Carte.PNG 6 1407 2448 2008-06-04T06:54:52Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Carte.jpg 6 1408 2450 2008-06-04T06:57:32Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 2451 2450 2008-06-04T06:58:16Z Nguyen 15 uploaded a new version of "[[Image:Carte.jpg]]" wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 Main Page 0 1279 2464 2416 2008-06-05T13:59:48Z Berthomg 8 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] wiki top secret du LBGI. ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS] * [[Alvinella]] * [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] ab327693bd8bc60ef9d98dd218b2f0da293f2b00 Java 0 1293 2465 2405 2008-06-09T09:03:45Z Dkieffer 2 /* Documentation */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]] A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java . ==Projets internes liés à Java== *[[IBISSA]] *[[BIRD]] *[[JMacs]] *[[JavOO]] ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <source lang="xml"> <?xml version="1.0" encoding="UTF-8" ?> <rsf> <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> </source> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== [http://java.developpez.com/livres/javaEnfants/ Programmation Java pour les enfants, les parents et les grands-parents], indispensable pour débuter! Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre tous les secrets de Java!] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] [[Category:Programmation]] 72a4caf3def61d5426de19aa1d0a6ae2ba134281 2466 2465 2008-06-09T09:05:26Z Dkieffer 2 /* Librairies */ wikitext text/x-wiki Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet]. ==Où trouver les fichiers pour l'execution?== Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]]. Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]] A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java . ==Projets internes liés à Java== *[[IBISSA]] *[[BIRD]] *[[JMacs]] *[[JavOO]] ==sources internes== ===Manipuler le format RSF en Java=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)] **[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.] **Exemple de fichier XML généré <source lang="xml"> <?xml version="1.0" encoding="UTF-8" ?> <rsf> <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces" checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07"> <comments>Voici mon test mon jolie commentaire</comments> <feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du feature</feature> <sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence> </rich_sequence> <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45" strand="1"> <comments>Voici ma deuxieme sequence</comments> <sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence> </rich_sequence> </rsf> </source> ===Fonctions BioJava utiles=== *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.] *[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.] ==Librairies== [http://www.jdom.org/ Jdom (pour manipuler aisément du XML)] [http://biojava.org/wiki/Main_Page Biojava] [http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)] [http://blog.developpez.com/adiguba?title=runtime_exec_n_est_pas_des_plus_simple Shell, une API pour lancer des commandes shell en java.] [[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa. ==Librairies internes== Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/> N'hésitez pas à les améliorer (changer le numéro de version quand même..). [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.] [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz] [http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ] ==Documentation== [http://java.developpez.com/livres/javaEnfants/ Programmation Java pour les enfants, les parents et les grands-parents], indispensable pour débuter! Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire. [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre tous les secrets de Java!] [http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)] [http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ] ==Liens== [http://java.sun.com/ site officiel de sun] [[Category:Programmation]] 9ff94d646a2bb47fe3823b6ba22d962b851f3bca Gscope 0 1287 2473 1559 2008-06-13T15:28:15Z Ripp 1 wikitext text/x-wiki ==What is Gscope ?== New : Gscope knows a lot about [[GeneNames]] Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. Gscope is specially designed to perform high throughput analysis. Gscope is mainly composed of * all tools necessary to create the basic data * analysis tools * visualisation interface it allows also * the creation and feeding of SQL relational databases * the quering and display of the available information through a web based interface ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 7af2f8bca517c51594cd36c9c92a5c06a7cbf37a GeneNames 0 1409 2474 2008-06-13T15:51:01Z Ripp 1 New page: GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. * HGNC integrates a download from the [http://www.genenames.org/... wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) c3edc4fd8f88479c28109021be368c5c43e35a4d 2475 2474 2008-06-13T15:54:10Z Ripp 1 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) ==Test it== * get all about Pax6 in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MGI&Pax6 Mouse] in the [Human ] 814dbfd31a4b9954d702d1b69f2ccdd0a0ec8e77 2477 2475 2008-06-13T16:01:00Z Ripp 1 /* Test it */ wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MouseFromHuman&RdCVF&GneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HUmanFromMouse&RdCVF&GeneName Human] 52ab08eb1d73dd1b4d70a1a9eb43fef805b81dfd 2478 2477 2008-06-13T16:01:25Z Ripp 1 /* Test it */ wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MouseFromHuman&RdCVF&GneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HumanFromMouse&RdCVF&GeneName Human] 958f5b6ac33c086dd09ad402c70fe569ed290dde BIRDQL 0 1395 2479 2429 2008-06-17T07:24:27Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY ID Q32437 DB UNIPROT FD AC,DR(GO) Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. DR GO; GO:0009523; C:photosystem II; IEA:UniProtKB-KW. DR GO; GO:0008137; F:NADH dehydrogenase (ubiquinone) activity; IEA:InterPro. DR GO; GO:0048038; F:quinone binding; IEA:UniProtKB-KW. DR GO; GO:0042773; P:ATP synthesis coupled electron transport; IEA:InterPro. a68cfd906c9626f087c3e3b7bf1ae240dc24c66e 2480 2479 2008-06-17T07:28:26Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. 63208a4b6aa1a348e8554be90e87ec9bb127aaf1 2481 2480 2008-06-17T07:28:46Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. cfa451400f76119b39d5fe1dffd862acfb40a050 2482 2481 2008-06-17T07:29:03Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. 0147a06bd5fd34a230c83c06896d10f0363dc8d1 R 0 1320 2483 2365 2008-06-17T11:11:12Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.7.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jun 08).<br> L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() . Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.7.0 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ f7bc828396c89a4fc5d41b25dbc035f79c880ba6 Wolfgang Raffelsberger 0 1339 2484 2071 2008-06-17T11:16:12Z Wraff 5 wikitext text/x-wiki Bonjour, please see my site / voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff] I am member of the BioInformatique et Génomique Intégratives ([[LBGI]]), Department of Structural Biology and Genomics ([[DBGS]], CNRS UMR7104), at the Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]). <br> Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives ([[LBGI]]), du Départment de Biologie et Génomique Structurales ([[DBGS]]), de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]). <br> General Research Interest : Bioanalysis, BioInformatics, Biostatistics <br> Specialization : Transcriptomics, CGH, Functional Genomics, Data Mining e-mail : wolfgang.raffelsberger (at) igbmc.fr 2e0fd3fdccaa5328ab329a57a95181cc9b035ac3 GeneNames 0 1409 2485 2478 2008-06-17T14:28:22Z Ripp 1 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MouseFromHuman&RdCVF&GneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HumanFromMouse&RdCVF&GeneName Human] 516c7959e2ed16db35f3ea5ddc08970e5456cb6d 2486 2485 2008-06-17T14:50:05Z Ripp 1 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?HumanFromMouse&RdCVF&GeneName Human] 38e90a3f7bdbe5eaa57a8a991760a19ca33fa89c 2487 2486 2008-06-17T14:52:03Z Ripp 1 /* Test it */ wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] aee89383c2f43ce9ad914262adbb66acef6a3629 BIRD 0 1313 2488 2468 2008-06-19T04:46:44Z Nguyen 15 /* Décrypthon Data Center */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr:8080/birdweb] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==[[Décrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 9251d140cd90dcf8abc78cc71419a708bb1e3228 2490 2488 2008-06-19T04:48:29Z Nguyen 15 /* Décrypthon Data Center */ wikitext text/x-wiki BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr:8080/birdweb] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 6e05c6f40290fdad9fe5d0a5d2908f3c0cb663aa 2511 2490 2008-06-19T06:06:40Z Nguyen 15 wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ===Databases public=== ===Services=== ===supports=== ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] af70b485336259acefeafbdfdf047ab3d812670d 2513 2511 2008-06-19T06:09:47Z Nguyen 15 /* Decrypthon Data Center */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 1dd660d4ae5aa204b08a80ce1e1a346662b2a9be Décrypthon Data Center 0 1410 2489 2008-06-19T04:48:02Z Nguyen 15 New page: =Overview= [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, O... wikitext text/x-wiki =Overview= [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ==Databases public== ==Services== ==supports== d794e0adb83bdcb5790450de4b56510dbcc01b19 Decrypthon Data Center 0 1411 2491 2008-06-19T04:48:49Z Nguyen 15 New page: ==Overview== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos,... wikitext text/x-wiki ==Overview== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ==Databases public== ==Services== ==supports== 626acdd970c7b860f515a5a32c9b12db6307f917 2492 2491 2008-06-19T04:51:37Z Nguyen 15 /* Overview */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ==Databases public== ==Services== ==supports== 6babb7d3b4f8a9557d9e80b34f2f41fc4831635a 2493 2492 2008-06-19T04:53:03Z Nguyen 15 /* Overview */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do [[Image:bird_ddc.jpg]] ==Databases public== ==Services== ==supports== 104608f48c0d71a25a86e732ac38802274a9ec96 2494 2493 2008-06-19T04:55:13Z Nguyen 15 /* Overview */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Databases public== ==Services== ==supports== 78f5e23e001c2e415c9cb41a46bb3c3dd83b7567 2495 2494 2008-06-19T04:57:57Z Nguyen 15 wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Contraints of thi Center== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Services== ==supports== fbcfc54b6cfc556dd9cd28eb12cf84ece05716c7 2496 2495 2008-06-19T04:58:27Z Nguyen 15 /* Contraints of thi Center */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Constraints of thi Center== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Services== ==supports== c3a976dcfad0ce979b9101b8dc6a7355b522c0c6 2497 2496 2008-06-19T04:58:51Z Nguyen 15 /* Constraints of thi Center */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Functionnalities of thi Center== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Services== ==supports== 36c3002cbba11baf9ef33087a3d5e41da69d66ea 2498 2497 2008-06-19T05:03:12Z Nguyen 15 /* Services */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Functionnalities of thi Center== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP. ==supports== 79d9073e9a5bae4d9d76df2287cda83d7f947d70 2499 2498 2008-06-19T05:03:36Z Nguyen 15 /* Functionnalities of thi Center */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP. ==supports== 58e98ee3ac305c003ed5499946433af82189e205 2500 2499 2008-06-19T05:05:55Z Nguyen 15 /* supports */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP. ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) MACSIM software (IGBMC & Decrypthon) .... 656cc692d07ebb26f3aa5d3a0b68ea7fc30d1b26 2501 2500 2008-06-19T05:08:04Z Nguyen 15 /* Exploitations */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP. ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Lab -Ordali software -Macsim -Gscope -.... ... 46a2653c402d5b038c4405741db660513a191b8a 2502 2501 2008-06-19T05:08:24Z Nguyen 15 /* Exploitations */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP. ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... 05edc4dc038e3ca3132ad8bb851098375fd855bb 2503 2502 2008-06-19T05:09:45Z Nguyen 15 /* Functionnalities */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:bird_ddc.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP. ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... 8e6578c6f42d9537cb70ad5818a701b7708a902e 2504 2503 2008-06-19T05:12:22Z Nguyen 15 /* Overview */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP. ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... daf1e564b7f0b56502639b269663bc8069cef8ff 2505 2504 2008-06-19T05:15:14Z Nguyen 15 /* Implementation */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... 1e7253c9cdcccd5535f575730176a923d0383df8 2506 2505 2008-06-19T05:17:13Z Nguyen 15 /* Functionnalities */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... 70a89b7f8e77bf32cde6108bfab4b9deaaee6d88 2507 2506 2008-06-19T05:17:30Z Nguyen 15 /* Implementation */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ece32c1db15e69ef875f4f0b51a6b79d52281453 2508 2507 2008-06-19T05:19:41Z Nguyen 15 wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/query.do [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... 6f2f4b99204e2b2bda951cbb917d798284cac163 2509 2508 2008-06-19T05:21:12Z Nguyen 15 /* Overview */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... 69fbdf2e3ed52834c5bfc06d3b64117c779f9f9d 2514 2509 2008-06-19T06:17:34Z Nguyen 15 wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 Nguyen Ngoc Hoan,PhD Administrator of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 ca9fbd5e59afc68dc2e937e980e9f4459d1d12d5 2515 2514 2008-06-19T06:18:15Z Nguyen 15 /* Contact */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 Nguyen Ngoc Hoan,PhD Administrator of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 fad4a6baafb066ef9723863d33787f0401b79023 2516 2515 2008-06-19T06:18:29Z Nguyen 15 /* Contact */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 Nguyen Ngoc Hoan,PhD Administrator of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 2fd1543a1c74c36f9f9cbeb73787a2965bfa483c 2517 2516 2008-06-19T06:19:02Z Nguyen 15 /* Contact */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 Nguyen Ngoc Hoan,PhD Administrator of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 85a342c629c8f100dbddf87ae76b46ec508b27b6 2518 2517 2008-06-19T06:21:34Z Nguyen 15 /* Contact */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 POCH Olivier,PhD Director of LGBI Laboratory IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:poch@igbmc.fr poch@igbmc.fr] Tel: 0033 388653302 Nguyen Ngoc Hoan,PhD Administrator of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 eda1a4ff7ea50d274fb85a08c9a61b2d5f267b0e 2519 2518 2008-06-19T06:22:55Z Nguyen 15 /* Contact */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 POCH Olivier,PhD Director of LGBI Laboratory IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:poch@igbmc.fr poch@igbmc.fr] Tel: 0033 388653302 Nguyen Ngoc Hoan,PhD Leader of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 d82f18ceb794ff8192f9d478d473744883966a9c 2520 2519 2008-06-19T06:23:13Z Nguyen 15 /* Contact */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 POCH Olivier,PhD Director of LGBI Laboratory IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:poch@igbmc.fr poch@igbmc.fr] Tel: 0033 388653302 NGUYEN Ngoc Hoan,PhD Leader of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 a5698b60b30c25af770f36ce43180cb38d3e753e 2523 2520 2008-06-20T04:51:43Z Nguyen 15 /* Contact */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 POCH Olivier,PhD Director of LGBI Laboratory IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:poch@igbmc.fr poch@igbmc.fr] Tel: 0033 388653302 NGUYEN Ngoc Hoan,PhD Architect/Administrator of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 72bd7dc192ba3287069985f2ebf89a4a4379e260 2524 2523 2008-06-20T04:54:29Z Nguyen 15 /* Contact */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 FACCI Hervé Senior Consultant IBM Global Business Services / Ile de France Tel : #33 (0)1 49 05 69 76 (33-6976) Cell : #33 (0)6 72 75 23 27 hfacci@fr.ibm.com POCH Olivier,PhD Director of LGBI Laboratory IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:poch@igbmc.fr poch@igbmc.fr] Tel: 0033 388653302 NGUYEN Ngoc Hoan,PhD Architect/Administrator of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 70fb9b7d26cf1d68bac0ffca83c9c7f32d8e4e91 2525 2524 2008-06-20T04:55:55Z Nguyen 15 /* Exploitations */ wikitext text/x-wiki ==Overview== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center). [[Image:ddc_idea.jpg]] The BIRD System was used to implementation of Décrypthon Data Center Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do] [[Image:ddc_architecure.jpg]] ==Functionnalities== The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints: • Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte. • Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time. • Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database. • Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API. • Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system. ==Implementation== The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools. In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source. The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source. Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP. ==[[Bird_Databases_List | biological datasets]]== ==Exploitations== MS2PH & MS2PH-DB Project MYOBASE (in project) LGBI Laboratory -Ordali software -Macsim -Gscope -.... ... ==Contact== TOURSEL Thierry, PhD Project Manager AFM Association Française contre les Myopathies Direction Scientifique 1 rue de l'Internationale BP59 91002 Evry cedex FRANCE Tel (33) 1 69 13 22 23 Fax (33) 1 69 13 22 22 FACCI Hervé Senior Consultant IBM Global Business Services / Ile de France Tel : #33 (0)1 49 05 69 76 (33-6976) Cell : #33 (0)6 72 75 23 27 hfacci@fr.ibm.com POCH Olivier,PhD Director of LGBI Laboratory IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:poch@igbmc.fr poch@igbmc.fr] Tel: 0033 388653302 NGUYEN Ngoc Hoan,PhD Architect/Administrator of Decrypthon Data Center IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 dcdc8e6b621513a9bfb2b92d9b6e7703939e793e BIRDQL 0 1395 2510 2482 2008-06-19T06:04:34Z Nguyen 15 /* BIRDQL in few words */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. e425a552232eb81a742dd222be609d8d63208d2f 2526 2510 2008-07-07T14:47:57Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" LM 100 FM FASTA '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. 76c00da9fb3ace5c09b39a2f2baff10ad0feef52 2527 2526 2008-07-07T14:48:08Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" LM 100 FM FASTA '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. 46077866772fc3a636e83e05a98c473bf87af710 2528 2527 2008-07-07T14:50:35Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo" LM 100 FM FASTA '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. 8155f60c860821274856c9b46bd9bd1f747936f2 2529 2528 2008-07-07T14:51:56Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. 28fb4e63e569a1341293abd9297865724c52fdaf 2530 2529 2008-07-09T19:54:48Z Dkieffer 2 wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]> LM <n> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] ebe37d9803644e6e29589de9d4e3f8f2dfc31698 Bird Databases List 0 1404 2512 2439 2008-06-19T06:08:24Z Nguyen 15 /* OTHER */ wikitext text/x-wiki These database below are available in [[BIRD]] System. We could explore these data by [[BIRD Data Access Protocol]] =GENBANK DATABASES= *GBEST : GENBANK EST *GBWGS : GENBANK WGS *GBRL : GENNANK RELEASE *GBNEW : GENNANK NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW =REFSEQ DATABASES= *REFSEQP :REFSEQ PROTEIN *REFSEQG :REFSEQ GENOMIC *REFSEQRNA :REFSEQ RNA *REFSEQNEW :REFSEQ NEW *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW =UNIPROT DATABASES= *UNIPROT :Swiss-Prot, TrEMB =STRUCTURE PDB DATABASE= *PDB: Protein Data Bank =GEO DATABASE= *MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) =OTHER= *UCSC, Alignments, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... =ALIAS Database Names= *PROTEIN: UNIPROT +PDB +REFSEQP *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *NUCLEOTIDE : =GBFULL Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). [[Category:Bird_project]] 27493d02383fb222839943703e3613b707be8902 BIRD Data Access Protocol 0 1396 2521 2476 2008-06-19T08:01:00Z Nguyen 15 /* Data Browsing at Décrypthon Data Center */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== under construction: [http://decrypthon.u-strasbg.fr:8080/birdweb] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] e497d311c34b960868c5e3d76fa8db791aa52156 2522 2521 2008-06-19T08:01:54Z Nguyen 15 /* WEB Server */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 921d0ecaa9ca87ac5bf91439d172e64a0e4ec62c File:Carte.jpg 6 1408 2531 2451 2008-07-18T11:04:59Z Nguyen 15 uploaded a new version of "[[Image:Carte.jpg]]" wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Carte2.jpg 6 1412 2532 2008-07-18T11:07:21Z Nguyen 15 wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 File:Carte.jpg 6 1408 2533 2531 2008-07-18T11:10:52Z Nguyen 15 uploaded a new version of "[[Image:Carte.jpg]]" wikitext text/x-wiki da39a3ee5e6b4b0d3255bfef95601890afd80709 MAP Semantic 0 1406 2534 2463 2008-07-23T13:27:12Z Nguyen 15 wikitext text/x-wiki [[Image:Carte.jpg]] The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker ,Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) 38f26276ee3a4b4c13c0e7d05615449745bc1ecb BIRD 0 1313 2535 2513 2008-07-23T13:28:16Z Nguyen 15 /* MAP Semantic */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 535a8f8595f70ac52e81dd2eb93667e7a8e7b1ec 2571 2535 2009-03-07T06:15:39Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint and PDF Presentations== 1. BIRD System presentation (powerpoint, at ENS -Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 7124be10686ed3aee40524dfbf270bc56a24e300 2572 2571 2009-03-07T06:57:56Z Nguyen 15 /* Powerpoint and PDF Presentations */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 05235383037bcf7c5b6eb2e8ee250dc8797cd659 2573 2572 2009-03-07T07:09:13Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... 2. "Semantic Map and BIRD System" is preparing , See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPaper.pdf] ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 3f642cfe5dbb76216ce911e39ed6f6b6e0bdd938 2574 2573 2009-03-07T07:09:28Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... 3. "Semantic Map and BIRD System" is preparing , See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPaper.pdf] ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 44685f86708737b2d588cd6ca05016e0889e277c 2576 2574 2009-03-13T15:53:24Z Nguyen 15 wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. "Conception of the BIRD System" is preparing for ..... 3. "BIRDQL-A new Biological Query Language " is preparing for.... 3. "Semantic Map and BIRD System" is preparing , See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPaper.pdf] ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 69511a5226382ff3549f1af4941d638a7ff952f3 Unix 0 1312 2536 2018 2008-09-11T07:47:39Z Dkieffer 2 /* Script bash */ wikitext text/x-wiki Type de systèmes d'exploitations, comme MacOS ou Linux. C'est ce genre de système qui est installé sur nos serveurs. =Commandes Unix= tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/> ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''. ==Manipulation des fichiers et des répertoires== {| border="1" ! Commande Unix !! Utilisation |- |pwd |Affiche le répertoire courant |- |cd [nom_répertoire] |Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil |- |pushd nom_répertoire |Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires |- |popd |Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires |- |ls [-ailst] [nom_fichier[s]] |Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options |- |du [-s] nom_fic[s] |Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire. |- |df nom_fic[s] |Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s). |- |find nom_répertoire[s] [-options] |Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options |- |which nom_commande |Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires |- |cp nom_fic_srs nom_fic_dst |Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst |- |cp nom_fic_1 ... nom_fic_n nom_rép |Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n |- |mv nom_fic_src nom_fic_dst |Renomme le fichier nommé nom_fic_src en nom_fic_dst |- |mv nom_fic_1, ..., nom_fic_n nom_rép |Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép |- |ln nom_fic_src nom_fic_dst |Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué. |- |ln -s nom_fic_src nom_fic_dst |Crée un fichier nommé nom_fic_dst qui pointe vers le contenu de nom_fic_src. |- |mkdir nom_rép[s] |Crée un (des) répertoire(s) |- |rmdir nom_rép[s] |Supprime un (des) répertoire(s) vide(s) |- |rm nom_fic[s] |Supprime un (des) fichier(s) |- |rm -r nom_rép[s] |Supprime récursivement un (des) répertoire(s) éventuellement non vides |- |stat nom_fic[s] |Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s) |- |chmod mod nom_fic[s] |Change les modalités d'accès au(x) fichier(s) |- |chown prop[.grp] nom_fic[s] |Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |- |chgrp grp nom_fic[s] |Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système. |} ==Visualisation et traitement de fichiers== {| border="1" ! Commande Unix !! Utilisation |- |cat nom_fic[s] |Affiche la totalité du contenu du (des) fichier(s). |- |more nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |less nom_fic[s] |Affiche le contenu du (des) fichier(s) page par page. |- |[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s] |édite le contenu du (des) fichier(s). |- |string nom_fic[s] |Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s). |- |od [-options] nom_fic[s] |Affiche sous différentes formats le contenu du(des) fichier(s). |- |head [-val] nom_fic[s] |Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées. |- |tail [-val] nom_fic[s] |Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées. |- |tail [+val] nom_fic[s] |Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière. |- |split -l val nom_fic |Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire. |- |csplit '/motif/' nom_fic |Sépare le fichier nommé nom_fic en fonction d'un motif donné. |- |cut -fliste -dc nom_fic[s] |Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s). |- |paste nom_fics |Regroupe plusieurs fichiers en un seul. |- |join nom_fics |Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure. |- |sort [-n] nom_fic[s] |Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques. |- |cmp nom_fic_1 nom_fic_2 |Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence. |- |diff nom_fic_1 nom_fic_2 |Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2. |- |wc [-lwc] nom_fic[s] |Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c). |- |grep motif nom_fic[s] |Affiche les lignes du(des) fichier(s) contenant le <<motif>>. |} ==Archivage et compression== {| border="1" ! Commande Unix !! Utilisation |- |tar cvf nom_fic.tar nom_rép |Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép. |- |tar xvf nom_fic.tar |Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier. |- |compress nom_fic[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z. |- |uncompress nom_fic[s].Z |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |- |gzip nom[s] |Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz. |- |gunzip nom_fic[s].gz |Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic. |} ==Redirections et tube== {| border="1" ! Commande Unix !! Utilisation |- |commande > nom_fic |Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic. |- |commande >> nom_fic |Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic. |- |commande >& nom_fic |Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic. |- |commande < nom_fic |Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>. |- |<nowiki>commande_1 | commande_2 </nowiki> |Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>. |- |} ==commandes relatifs à l'environnement multi-utilisateurs== {| border="1" ! Commande Unix !! Utilisation |- |id |Donne des informations sur l'identité de l'utilisateur courant. |- |- |telnet nom_hote |Construit une connexion de session de travail vers la machine nommée nom_hote. |- |ssh nom_hote |Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote. |- |ftp nom_hote |Construit une connexion de transfert de fichiers vers la machine nommée nom_hote. |- |finger nom_utilisateur(s) |Affiche les informations relative au(x) nom_utilisateur(s). |- |chsh |Modifie le shell initial. |- |w |Affiche les informations sur la charge du système et les sessions de travail en cours. |- |ps [aux] |Affiche les informations relatives aux processus. |- |top |Affiche les informations relatives aux processus dans un format dynamique et trié. |- |kill [-signal] pid |Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux. |- |nice commande [args] |Positionne la priorité associée à la <<commande>>. |- |crontab |Met en place un processus périodique. |- |at heure commande |Retarde l'exécution d'une commande. |} =Script bash= [http://fr.wikibooks.org/wiki/Programmation_Bash_Notions_essentielles_du_shell_bash un wiki pour apprendre le Bash.] =sources= Initiation à la bioinformatique O'Reilly 9b2a2a58ef47b2f13a7947436481dc460f79c104 R 0 1320 2537 2483 2008-09-18T08:49:40Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.7.2 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Sept 08).<br> L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() . Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.7.2 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 8bf705cd65a9e8a10bd2541b261a24bdb9e7570b 2538 2537 2008-09-18T08:52:36Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.7.2 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Sept 08).<br> L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() . Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.7.2 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf *liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/ 136e607af5228a5ff5336fca40375771c753882c 2542 2538 2008-10-06T14:44:18Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.7.2 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Sept 08).<br> L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN". Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() . Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.7.2 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro 211efaabd96a9e5e2c6eeaff83c5f4bad42824bb 2563 2542 2008-11-17T17:22:51Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.8.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Nov 08).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() . Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> Et en version 2.7.2 en tapant /usr/local/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro 2b3b1aed291663a37af53be95c49f4a1afc4c565 Tcl/Tk 0 1323 2539 2408 2008-09-18T14:59:09Z Ripp 1 wikitext text/x-wiki [[EuroTcl]] European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] * (pas encore eu le pb sur 8.5) Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...) * Pour Pgtcl il faut toujours mettre les liens *** ln -s /usr/local/ActiveTcl/lib/tcl8.5 /usr/local/lib/tcl8.5 *** ln -s /usr/local/lib/tcl8.5 tcl * Starkit Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme. Un starkit s'utilise de la façon suivante : $ tclsh % source MyPkg.kit % package require MyPkg Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit) decompresser le starkit star123_> tclkit sdx.kit unwrap LRIPHoto.kit Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc. Bidouiller ce que vous voulez. Recréer le starkit star123_> tclkit sdx.kit LRIPhoto.kit et hop ! * CriTcl CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc. On peut également créer une librairie dynamique. Pour LRIPhoto, tclkit critcl.kit -lib LRIPhoto On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit. b330130e5e88a7de055f9b2c1c3a7511a677975c 2540 2539 2008-09-18T15:35:30Z Gagniere 3 wikitext text/x-wiki [[EuroTcl]] European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] * (pas encore eu le pb sur 8.5) Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier ** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock ** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...) * Pour Pgtcl il faut toujours mettre les liens ** ln -s /usr/local/ActiveTcl/lib/tcl8.5 /usr/local/lib/tcl8.5 ** ln -s /usr/local/lib/tcl8.5 /usr/local/lib/tcl ** (Ubuntu 8.04) ln -s /usr/lib/libpq.so.5 /usr/lib/libpq.so.4 * Starkit Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme. Un starkit s'utilise de la façon suivante : $ tclsh % source MyPkg.kit % package require MyPkg Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit) decompresser le starkit star123_> tclkit sdx.kit unwrap LRIPHoto.kit Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc. Bidouiller ce que vous voulez. Recréer le starkit star123_> tclkit sdx.kit LRIPhoto.kit et hop ! * CriTcl CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc. On peut également créer une librairie dynamique. Pour LRIPhoto, tclkit critcl.kit -lib LRIPhoto On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit. ec6ce2d118c773894fccb398cbca05898896a34d BIRDQL 0 1395 2541 2530 2008-09-19T09:09:27Z Dkieffer 2 /* BIRDQL Grammar */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA '''Example 2''': complex query ID * DB GENBANK, REFSEQ WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] aeab701e54341a3bd095d9af65fe0b71facd5b5a 2547 2541 2008-10-27T10:28:00Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] a83239ae49d7e16d6e68eba5e610b0867dd42044 2548 2547 2008-10-27T12:48:25Z Nguyen 15 /* BIRDQL Grammar */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT> OF <OFFSET, Defaut OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] b371ee30eee028d2410af39bad1835a450316b56 2549 2548 2008-10-27T12:50:03Z Nguyen 15 /* BIRDQL Grammar */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX" WH OS contains "ERYTHRINA CORALLODENDRON" WH RESO contains 1.90 LM 10 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] af58998c479f319665a804acb3b64eaee65d9a43 2550 2549 2008-10-27T12:55:01Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] c6c5cc9c06b616adb7581df8a3e74579b0fc6d9f 2566 2550 2008-12-17T13:41:38Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH DE contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] 4b4206a8b0c6d7ed4125498f72163677a54b1133 2567 2566 2008-12-17T13:43:35Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] 25c56dacd754415c1806aed7ea1ac19c74cd47cb 2568 2567 2008-12-17T13:46:18Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") WH OX contains 382 FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] 2e622f5539c68c4e8393013cdd39b80c0dd65129 2569 2568 2008-12-22T11:19:31Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] dc624791f4c5431ab5d1877546f8f8e49325663d 2570 2569 2008-12-22T11:20:30Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB MYGEO WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3 LM 1000 FM CSV Results GSM135388|GTGAAACCCC|1|GPL4 // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] 727db8c6b1c39496b3b881005d0a62039af87133 Cluspack 0 1353 2543 2251 2008-10-22T16:56:57Z Wraff 5 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !! ==Principe== Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] ==Format d'entrée== Le fichier d'entrée doit être formaté de la façon suivante : * la première ligne indique le nombre des lignes et des colonnes. * les lignes suivantes sont de la forme ** la première colonne des données peut contenir des identifiants ** les autres colonnes de texte, annotation etc devront se trouver à la fin ==Utilisation== En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kMeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 more options -dt=[coordinates|alignment|distances|similarities] (fd stands for data_type) -cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method) -nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.) [-dt1|-dt2][-standardization][-standardized_data][-wc] (dt1 stands for density1 and wc for write_coordinates) [-fd=number] (dt stands for filtering_distance) [-nbsim=nbsimulations] [-otfa=outputFile for alignment] [-oclu=outputFile for clustering] pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 6a04ae4ba226a57413384b7860ac812893206cf2 2544 2543 2008-10-22T16:57:25Z Wraff 5 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !! ==Principe== Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] ==Format d'entrée== Le fichier d'entrée doit être formaté de la façon suivante : * la première ligne indique le nombre des lignes et des colonnes. * les lignes suivantes sont de la forme ** la première colonne des données peut contenir des identifiants ** les autres colonnes de texte, annotation etc devront se trouver à la fin ==Utilisation== En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kMeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 more options -dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br> -cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br> -nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br> [-dt1|-dt2][-standardization][-standardized_data][-wc] (dt1 stands for density1 and wc for write_coordinates)<br> [-fd=number] (dt stands for filtering_distance)<br> [-nbsim=nbsimulations]<br> [-otfa=outputFile for alignment]<br> [-oclu=outputFile for clustering]<br> pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 069aa8596ba30b6696ff6c7b5b1490a158d00435 2545 2544 2008-10-22T16:57:39Z Wraff 5 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !! ==Principe== Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] ==Format d'entrée== Le fichier d'entrée doit être formaté de la façon suivante : * la première ligne indique le nombre des lignes et des colonnes. * les lignes suivantes sont de la forme ** la première colonne des données peut contenir des identifiants ** les autres colonnes de texte, annotation etc devront se trouver à la fin ==Utilisation== En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kMeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 more options :<br> -dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br> -cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br> -nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br> [-dt1|-dt2][-standardization][-standardized_data][-wc] (dt1 stands for density1 and wc for write_coordinates)<br> [-fd=number] (dt stands for filtering_distance)<br> [-nbsim=nbsimulations]<br> [-otfa=outputFile for alignment]<br> [-oclu=outputFile for clustering]<br> pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 bd815cbee5058f3f570187646ab35a69dd5fa33f 2546 2545 2008-10-23T10:30:49Z Wraff 5 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !! ==Principe== Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] ==Format d'entrée== Le fichier d'entrée doit être formaté de la façon suivante : * la première ligne indique le nombre des lignes et des colonnes. * les lignes suivantes sont de la forme ** la première colonne des données peut contenir des identifiants ** les autres colonnes de texte, annotation etc devront se trouver à la fin ==Utilisation== En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kmeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 more options :<br> -dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br> -cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br> -nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br> [-dt1|-dt2][-standardization][-standardized_data][-wc] (dt1 stands for density1 and wc for write_coordinates)<br> [-fd=number] (dt stands for filtering_distance)<br> [-nbsim=nbsimulations]<br> [-otfa=outputFile for alignment]<br> [-oclu=outputFile for clustering]<br> pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 1961a05ca3ad2a07014e438200f466b958e5e256 2556 2546 2008-10-28T17:33:35Z Wraff 5 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !! ==Principe== Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] ==Format d'entrée== Le fichier d'entrée doit être formaté de la façon suivante : * la première ligne indique le nombre des lignes et des colonnes. * la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide ! * les lignes suivantes sont de la forme ** la première colonne des données peut contenir des identifiants ** les autres colonnes de texte, annotation etc devront se trouver à la fin ==Utilisation== En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kmeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 more options :<br> -dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br> -cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br> -nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br> [-dt1|-dt2][-standardization] (dt1 stands for density1) [-standardized_data][-wc] (wc stands for write_coordinates)<br> [-fd=number] (dt stands for filtering_distance)<br> [-nbsim=nbsimulations]<br> [-otfa=outputFile for alignment]<br> [-oclu=outputFile for clustering]<br> pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 48a5029b6cc301a307c0971e370d1e710baedafa 2557 2556 2008-10-28T17:39:27Z Wraff 5 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !! ==Principe== Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] ==Format d'entrée== Le fichier d'entrée doit être formaté de la façon suivante : * la première ligne indique le nombre des lignes et des colonnes. * la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide ! * les lignes suivantes sont de la forme ** la première colonne des données peut contenir des identifiants ** les autres colonnes de texte, annotation etc devront se trouver à la fin ==Utilisation== En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 autres choix des parametres : <br> -cm=kmeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 more options :<br> -dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br> -cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br> -nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br> [-dt1|-dt2][-standardization] (dt1 stands for density1) [-standardized_data][-wc] (wc stands for write_coordinates)<br> [-fd=number] (dt stands for filtering_distance)<br> [-nbsim=nbsimulations]<br> [-otfa=outputFile for alignment]<br> [-oclu=outputFile for clustering]<br> Suggestion:<br> run cluspack with nohup<br> pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 c14ecb99700d60c7d4c560a17cea8a5dd8547f83 2558 2557 2008-10-28T17:41:17Z Wraff 5 wikitext text/x-wiki '''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !! ==Principe== Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] ==Format d'entrée== Le fichier d'entrée doit être formaté de la façon suivante : * la première ligne indique le nombre des lignes et des colonnes. * la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide ! * les lignes suivantes sont de la forme ** la première colonne des données peut contenir des identifiants ** les autres colonnes de texte, annotation etc devront se trouver à la fin ==Utilisation== En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc<br> or:<br> /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=kmeans -nbc=dpc -dt2 -wc<br> autres choix des parametres : <br> -cm=kmeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 more options :<br> -dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br> -cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br> -nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br> [-dt1|-dt2][-standardization] (dt1 stands for density1) [-standardized_data][-wc] (wc stands for write_coordinates)<br> [-fd=number] (dt stands for filtering_distance)<br> [-nbsim=nbsimulations]<br> [-otfa=outputFile for alignment]<br> [-oclu=outputFile for clustering]<br> Suggestion:<br> run cluspack with nohup<br> pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 88a447b165126997c4acf08798c5904fe8f0b5fa BIRD Data Access Protocol 0 1396 2551 2522 2008-10-27T15:29:15Z Nguyen 15 wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP Connection=== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FLAT EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 0b9fcef03ff60063ae19956b9891e15d253d31d5 2552 2551 2008-10-27T15:29:34Z Nguyen 15 /* =PhP Connection */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP Connection=== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FLAT EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 4b20ee14434ad909c685665b6d3c29c558aacac7 2553 2552 2008-10-27T15:33:49Z Nguyen 15 /* =PhP Connection */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP Connection==== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] cdff1f9fa2cec804f7a571c63a33dfe70396772e 2554 2553 2008-10-27T15:35:28Z Nguyen 15 /* PhP Connection */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb] Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/] ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP Connection==== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 4f906db36a3985ff1734b5cccd15cdeb3b8fab92 2555 2554 2008-10-27T16:09:19Z Nguyen 15 /* Data Browsing at Décrypthon Data Center */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP Connection==== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 1ad0a57e3981325a98ee7cbff9e042d693879056 2559 2555 2008-10-29T07:27:46Z Nguyen 15 /* PhP Connection */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); int statusCode1 = client.executeMethod(postMethod); String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] f1636811949b09707df077f54a292bf836f179f7 2560 2559 2008-10-29T07:28:51Z Nguyen 15 /* Java */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); int statusCode1 = client.executeMethod(postMethod); String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 2e6310a96a2a692278eeceee61f46a25a12476cc 2561 2560 2008-10-29T07:32:33Z Nguyen 15 /* Java */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BIRDQL CLient==== java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile @birdql : file name contains your bird-ql query @nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr) @outFile : file name, the result will be print to this file ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] a8d78d4b9f7698584de9fdd7f4c0270f102ed91f 2562 2561 2008-10-29T07:33:10Z Nguyen 15 /* BIRD Data Access Protocol */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 3ce3eaa398179d0b6414a7fd30f20ac6b5d79f2c 2575 2562 2009-03-10T11:50:55Z Dkieffer 2 /* Data Selection by BIRDQL Service */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] e1888ea3d3af08adaf0505e6e64f834a965ebeb1 T-test 0 1413 2564 2008-11-17T18:00:44Z Wraff 5 New page: The t-test is probably the best know statistical test.<br> Baiscally the '''t-test''' can be used to compare a) if the avarage of a given sample is different from 0 or b) if the averages o... wikitext text/x-wiki The t-test is probably the best know statistical test.<br> Baiscally the '''t-test''' can be used to compare a) if the avarage of a given sample is different from 0 or b) if the averages of two (independent) samples are different. The individual values in each sample should follow the '''normal distribution''' and the samples should be '''independet'''. for testing Normality in R you may use the [Shapiro-test] Before launching the test it is essential to define the '''hypothesis to be tested''' and the Ho (hypothesis of the inverse). Averages may be tested "two-sided" for (not-)equality (the hypothesis doesnt specify if average_1 is larger or smaller than average_2), or single-sided (where larger or samller has to be chosen). The initial t-test assumes equal variance in both samples, if you think this is not the case the Welch-correction allows to use for each sample individual estimations of the standard deviation. in fact, the default implementation in R does already the Welch-correction. Run the test in R as : samp1 <- c(2:10,4:6) samp2 <- c(6:11,9,10,14) # test the hypothesis that the averages of samp1 and samp2 are equal (ie Ho aver(samp1) equal aver(samp2) ) t.test(samp1, samp2) will return the t-value, the degrees of freedom, the p-value, the 95% confidence interval and the sample (estimated) means. If you simply want the p-values type : t.test(samp1, samp2)$p.value In this particular example the probability (p-value) for the hypothesis of both averages being equal is quite samll, therefore one may consider the averages of both samples as significaltly different (ie below the calssical a=5% threshold) since : t.test(samp1, samp2)$p.value < 0.05 <br> ''' Special cases and Assumptions''' : As mentioned before, t-test assumes INDEPENDENCE of the variables to be tested ! Note, that in many settings in Bioinformatics such independence is not entirely granted (eg genes may potentially be co-regulated...). When running many t-test a special correction for the multiple testing should be applied. For example this is the case with many testing situation many genes present on a single microarray. 8585ce09d11fb1b3af94173706f97887cdcbb9b4 2565 2564 2008-11-17T18:01:59Z Wraff 5 wikitext text/x-wiki == t-test in R == The t-test is probably the best know statistical test.<br> Baiscally the '''t-test''' can be used to compare a) if the avarage of a given sample is different from 0 or b) if the averages of two (independent) samples are different. The individual values in each sample should follow the '''normal distribution''' and the samples should be '''independet'''. for testing Normality in R you may use the [[Shapiro-test]] Before launching the test it is essential to define the '''hypothesis to be tested''' and the Ho (hypothesis of the inverse). Averages may be tested "two-sided" for (not-)equality (the hypothesis doesnt specify if average_1 is larger or smaller than average_2), or single-sided (where larger or samller has to be chosen). The initial t-test assumes equal variance in both samples, if you think this is not the case the Welch-correction allows to use for each sample individual estimations of the standard deviation. in fact, the default implementation in R does already the Welch-correction. Run the test in R as : samp1 <- c(2:10,4:6) samp2 <- c(6:11,9,10,14) # test the hypothesis that the averages of samp1 and samp2 are equal (ie Ho aver(samp1) equal aver(samp2) ) t.test(samp1, samp2) will return the t-value, the degrees of freedom, the p-value, the 95% confidence interval and the sample (estimated) means. If you simply want the p-values type : t.test(samp1, samp2)$p.value In this particular example the probability (p-value) for the hypothesis of both averages being equal is quite samll, therefore one may consider the averages of both samples as significaltly different (ie below the calssical a=5% threshold) since : t.test(samp1, samp2)$p.value < 0.05 <br> ''' Special cases and Assumptions''' : As mentioned before, t-test assumes INDEPENDENCE of the variables to be tested ! Note, that in many settings in Bioinformatics such independence is not entirely granted (eg genes may potentially be co-regulated...). When running many t-test a special correction for the multiple testing should be applied. For example this is the case with many testing situation many genes present on a single microarray. e09e0bd27d7ed0430a3b367aec03a5a03c27cae0 ILPLab 0 1414 2577 2009-03-13T15:54:39Z Nguyen 15 New page: ILPLab product wikitext text/x-wiki ILPLab product 97ec7bae1c1977e608115d7aac271a6792b83dd5 Fed 0 1286 2578 2036 2009-03-22T17:37:14Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] 72eb7225e4cb4e9ae0cb247b563e83e528fa7c36 Fed Website Architecture 0 1415 2579 2009-03-22T18:00:12Z Ripp 1 New page: [[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s). We describe here the architecture of ONE website. Let's call it "'''... wikitext text/x-wiki [[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s). We describe here the architecture of ONE website. Let's call it "'''arthur'''". ==Main concepts== # a relational SQL database (1 for each Fed instance : let's call it "'''arthur'''") # the fed shared php programs are in following directories ** /arthur/Project ** /arthur/phpRR ** /arthur/phpLP a7af7eb09776f561efc3a68cb38843fb1fe7ada8 2580 2579 2009-03-22T18:13:23Z Ripp 1 wikitext text/x-wiki [[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s). We describe here the architecture of ONE website. Let's call it "'''arthur'''". ==Main concepts== === a relational SQL database=== one database for our Fed instance (by default let's call it "'''arthur'''") ===the fed shared php programs are in following directories=== ** /arthur/Project ** /arthur/phpRR ** /arthur/phpLP ===a hierarchical 3 levels tree organisation=== * sections * categories * buds stored in /arthur/own/desk/MenuBarBora.php. A page corresponds to the display of a section/categorie/bud. * All buds of the displayed category are clickable * All categories of a section are clickable * All sections are always available. 046ce17d564e942d3c8725ff1832e18178d7e14d 2581 2580 2009-03-22T18:30:50Z Ripp 1 wikitext text/x-wiki [[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s). We describe here the architecture of ONE website. Let's call it "'''arthur'''". ==Main concepts== === a relational SQL database=== one database for our Fed instance (by default let's call it "'''arthur'''") ===the fed shared php programs are in following directories=== ** /arthur/Project ** /arthur/phpRR ** /arthur/phpLP ===a hierarchical 3 levels tree organisation=== * sections * categories * buds stored as html file with ul and li in /arthur/own/desk/MenuBarBora.php. A page corresponds to the display of a section/categorie/bud. * All buds of the displayed category are clickable * All categories of the displayed section are clickable * All sections are allways available. ===a page is displayed by a centralized .php program=== FedHTMLDocument.php (aujoud'hui encore GenoretHTMLDocument) according to the CSS stored in /arthur/own/css/bora/Bora.css.php ed235ba62cc26a014f8f9a51db395be6b76b1410 Gscope 0 1287 2582 2473 2009-04-16T09:47:21Z Ripp 1 wikitext text/x-wiki ==What is Gscope ?== New : Gscope knows a lot about [[GeneNames]] Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. Gscope is specially designed to perform high throughput analysis. Gscope is mainly composed of * all tools necessary to create the basic data * analysis tools * visualisation interface it allows also * the creation and feeding of SQL relational databases * the quering and display of the available information through a web based interface ==Usage== Gscope works on a [[Gscope Project]] A gscope Project can be a complete genome, a set of proteins, a set of genes, etc. To run Gscope you need to define on which the corresponding project. setgscoperr ''MyProject'' gscope If the project already exists the [[Gscope Environment Variables]] are setted. If it concerns a new project the directories are created and th evariables are setted. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] eef839499a11fbf75dc442dc27126e3f5a1b941e Gscope 0 1287 2583 2582 2009-04-16T09:48:08Z Ripp 1 wikitext text/x-wiki ==What is Gscope ?== New : Gscope knows a lot about [[GeneNames]] Gscope is an integrated platform allowing the analysis of all kind of genomic data. Gscope is written in Tcl/Tk and runs on all systems. Gscope is specially designed to perform high throughput analysis. Gscope is mainly composed of * all tools necessary to create the basic data * analysis tools * visualisation interface it allows also * the creation and feeding of SQL relational databases * the quering and display of the available information through a web based interface ==Usage== Gscope works on a [[Gscope Project]] A gscope Project can be a complete genome, a set of proteins, a set of genes, etc. To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope If the project already exists the [[Gscope Environment Variables]] are setted. If it concerns a new project the directories are created and th evariables are setted. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 3b5464bc23cbeffb9cccfa2bcdc6af28d616f837 2584 2583 2009-04-16T09:50:00Z Ripp 1 wikitext text/x-wiki ==What is Gscope ?== New : Gscope knows a lot about [[GeneNames]] * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ==Usage== * Gscope works on a [[Gscope Project]] * A gscope Project can be a complete genome, a set of proteins, a set of genes, etc. * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are setted. * If it concerns a new project the directories are created and th evariables are setted. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] d04808d8165477edd3294b686507cc36f13100cd 2585 2584 2009-04-16T09:53:29Z Ripp 1 wikitext text/x-wiki ==What is Gscope ?== New : Gscope knows a lot about [[GeneNames]] * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Usage== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are setted. * If it concerns a new project the directories are created and th evariables are setted. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] c2a5cb5902ba0598219557001f3a28fed048f834 2586 2585 2009-04-16T09:55:54Z Ripp 1 wikitext text/x-wiki ==What is Gscope ?== New : Gscope knows a lot about [[GeneNames]] * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Usage== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] bd97d14c4f8cd09f99d28d3df042e3b819dbbf0c 2601 2586 2009-04-17T12:25:42Z Ripp 1 wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Usage== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] a47b88733ac278ad2ba9cb2352779796646624db 2602 2601 2009-04-17T12:29:06Z Ripp 1 wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Usage== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 9692dcfd9d10bdedd11049f629f049da625703f6 2603 2602 2009-04-17T12:32:02Z Ripp 1 wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] ==Usage== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 65a1b01d60009957544a6edc17f9caea9c02346b 2617 2603 2009-04-20T14:02:51Z Ripp 1 wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access oue postgresql and mysql databases ==Usage== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 0e1e54f137a92c2d47eb299b3751e07f093bb48b 2623 2617 2009-04-24T10:22:19Z Ripp 1 wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] f2a5bcfdcfdc2c89b02c97fa38ebf352e90848c0 Gscope Environment Variables 0 1416 2587 2009-04-16T10:16:49Z Ripp 1 New page: [[Gscope]] needs to now the [[Gscope Project]] it has to manage. For that folllowing environment variables are set with the command (see the file [http://www-bio3d-igbmc.u-strasbg.fr/Pou... wikitext text/x-wiki [[Gscope]] needs to now the [[Gscope Project]] it has to manage. For that folllowing environment variables are set with the command (see the file [http://www-bio3d-igbmc.u-strasbg.fr/PourGscope/setgscoperr.com setgscope]) setgscoperr ''MyProject'' * setenv REPERTOIREDUGENOME /genomics/MyProject (the directory which contains the Gscope Project) * setenv NCBI /bips/share/ncbi * setenv BLASTDB /catalog/blast * the PATH is modified and contains at least ** /home/ripp/gscope/bin ** /home/ripp/mulali ** /bips/EMBOSS/bin ** /bips/bin Following command are also launched setsrs setmulali setncbi REPERTOIREDUGENOME and home/ripp/gscope/bin are sufficient to run Gscope Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/PourGscope/setgscoperr.com setgscope] 3f3dd632c3791abe036f91d50b17f6c914f325ee 2588 2587 2009-04-16T10:17:12Z Ripp 1 wikitext text/x-wiki [[Gscope]] needs to know the [[Gscope Project]] it has to manage. For that folllowing environment variables are set with the command (see the file [http://www-bio3d-igbmc.u-strasbg.fr/PourGscope/setgscoperr.com setgscope]) setgscoperr ''MyProject'' * setenv REPERTOIREDUGENOME /genomics/MyProject (the directory which contains the Gscope Project) * setenv NCBI /bips/share/ncbi * setenv BLASTDB /catalog/blast * the PATH is modified and contains at least ** /home/ripp/gscope/bin ** /home/ripp/mulali ** /bips/EMBOSS/bin ** /bips/bin Following command are also launched setsrs setmulali setncbi REPERTOIREDUGENOME and home/ripp/gscope/bin are sufficient to run Gscope Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/PourGscope/setgscoperr.com setgscope] d4da00514e593a0ecfb3d83725eef9eda302c1db 2589 2588 2009-04-16T10:18:48Z Ripp 1 wikitext text/x-wiki [[Gscope]] needs to know the [[Gscope Project]] it has to manage. For that folllowing environment variables are set with the command (see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscoperr.com setgscope]) setgscoperr ''MyProject'' * setenv '''REPERTOIREDUGENOME''' /genomics/MyProject (the directory which contains the Gscope Project) * setenv NCBI /bips/share/ncbi * setenv BLASTDB /catalog/blast * the '''PATH''' is modified and contains at least ** /home/ripp/gscope/bin ** /home/ripp/mulali ** /bips/EMBOSS/bin ** /bips/bin Following command are also launched setsrs setmulali setncbi REPERTOIREDUGENOME and home/ripp/gscope/bin are sufficient to run Gscope Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscoperr.com setgscope] 5b14a349ac5ef116fecfa13a725d9e5bc8d02d0d 2590 2589 2009-04-16T10:19:51Z Ripp 1 wikitext text/x-wiki [[Gscope]] needs to know the [[Gscope Project]] it has to manage. For that folllowing environment variables are set with the command (see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope]) setgscoperr ''MyProject'' * setenv '''REPERTOIREDUGENOME''' /genomics/MyProject (the directory which contains the Gscope Project) * setenv NCBI /bips/share/ncbi * setenv BLASTDB /catalog/blast * the '''PATH''' is modified and contains at least ** /home/ripp/gscope/bin ** /home/ripp/mulali ** /bips/EMBOSS/bin ** /bips/bin Following command are also launched setsrs setmulali setncbi REPERTOIREDUGENOME and home/ripp/gscope/bin are sufficient to run Gscope Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope] 2f89184e9b440a3e533c9fd26f512d7f7367d440 2591 2590 2009-04-16T10:21:55Z Ripp 1 wikitext text/x-wiki [[Gscope]] needs to know the [[Gscope Project]] it has to manage. For that folllowing environment variables are set with the command (see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope]) setgscoperr ''MyProject'' * setenv '''REPERTOIREDUGENOME''' /genomics/MyProject (the directory which contains the Gscope Project) * setenv NCBI /bips/share/ncbi * setenv BLASTDB /catalog/blast * the '''PATH''' is modified and contains at least ** /home/ripp/gscope/bin ** /home/ripp/mulali ** /bips/EMBOSS/bin ** /bips/bin Following command are also launched setsrs setmulali setncbi REPERTOIREDUGENOME and home/ripp/gscope/bin are necessary and sufficient to run Gscope in visualisation mode. Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope] 0ed0a50cbbd56271cef908669c0c01513b45f299 2592 2591 2009-04-16T10:22:40Z Ripp 1 wikitext text/x-wiki [[Gscope]] needs to know the [[Gscope Project]] it has to manage. For that folllowing environment variables are set with the command (see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope]) setgscoperr ''MyProject'' * setenv '''REPERTOIREDUGENOME''' /genomics/MyProject (the directory which contains the Gscope Project) * setenv NCBI /bips/share/ncbi * setenv BLASTDB /catalog/blast * the '''PATH''' is modified and contains at least ** /home/ripp/gscope/bin ** /home/ripp/mulali ** /bips/EMBOSS/bin ** /bips/bin Following command are also launched setsrs setmulali setncbi '''REPERTOIREDUGENOME''' and '''/home/ripp/gscope/bin''' are necessary and sufficient to run Gscope in visualisation mode. Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope] a569809932144943c912047d8e9a15f9ab5275ca Gscope Project 0 1417 2593 2009-04-16T10:32:16Z Ripp 1 New page: A [[Gscope]] Project is a directory tree containing at least following files (suppose REPRETOIREDUGENOME is /genomics/MyProject) * /genomics/MyProject * /genomics/MyProject/beton * /geno... wikitext text/x-wiki A [[Gscope]] Project is a directory tree containing at least following files (suppose REPRETOIREDUGENOME is /genomics/MyProject) * /genomics/MyProject * /genomics/MyProject/beton * /genomics/MyProject/beton/miniconfig * /genomics/MyProject/fiches * /genomics/MyProject/fiches/bornesdespabs * /genomics/MyProject/fiches/lesgenomescomplets * /genomics/MyProject/prottfa * /genomics/MyProject/protembl and/or * /genomics/MyProject/nuctfa * /genomics/MyProject/pnucembl * /genomics/MyProject/blastp * /genomics/MyProject/tblastn * /genomics/MyProject/msf etc. All these directories and files are automatically created by Gscope. 64f120345cf8871b03984e1ee69b2af31b7bf921 2594 2593 2009-04-16T10:36:22Z Ripp 1 wikitext text/x-wiki A [[Gscope]] Project is a directory tree containing at least following files (supposing REPERTOIREDUGENOME is /genomics/''MyProject'') * /genomics/''MyProject'' * /genomics/''MyProject''/beton * /genomics/''MyProject''/beton/miniconfig * /genomics/''MyProject''/fiches * /genomics/''MyProject''/fiches/bornesdespabs * /genomics/''MyProject''/fiches/lesgenomescomplets * /genomics/''MyProject''/prottfa * /genomics/''MyProject''/protembl and/or * /genomics/''MyProject''/nuctfa * /genomics/''MyProject''/pnucembl and why not * /genomics/''MyProject''/blastp * /genomics/''MyProject''/tblastn * /genomics/''MyProject''/blastpMus_musculus * /genomics/''MyProject''/blastpHomo_sapiens * /genomics/''MyProject''/msf * /genomics/''MyProject''/msfMus_musculus etc. All these directories and files are automatically created by Gscope. 73cdf36e02f2a563c0b8ba7e0bc898536cfb393e 2595 2594 2009-04-16T10:38:17Z Ripp 1 wikitext text/x-wiki A [[Gscope]] Project is a directory tree containing at least following files (supposing REPERTOIREDUGENOME is /genomics/''MyProject'') * /genomics/''MyProject'' * ./beton * ./beton/miniconfig * ./fiches * ./fiches/bornesdespabs * ./fiches/lesgenomescomplets * ./prottfa * ./protembl and/or * ./nuctfa * ./pnucembl and why not * ./blastp * ./tblastn * ./blastpMus_musculus * ./blastpHomo_sapiens * ./msf * ./msfMus_musculus etc. All these directories and files are automatically created by Gscope. 32574e5c2bd1fcbb3fe00c2568899a304118eed5 2596 2595 2009-04-16T10:39:01Z Ripp 1 wikitext text/x-wiki A [[Gscope]] Project is a directory tree containing at least following files (supposing REPERTOIREDUGENOME is /genomics/''MyProject'') /genomics/''MyProject'' ./beton ./beton/miniconfig ./fiches ./fiches/bornesdespabs ./fiches/lesgenomescomplets ./prottfa ./protembl and/or ./nuctfa ./pnucembl and why not ./blastp ./tblastn ./blastpMus_musculus ./blastpHomo_sapiens ./msf ./msfMus_musculus etc. All these directories and files are automatically created by Gscope. eda4e991aec49cd6904886208f610e94efaabcd0 2597 2596 2009-04-16T10:40:01Z Ripp 1 wikitext text/x-wiki A [[Gscope]] Project is a directory tree containing at least following files (supposing REPERTOIREDUGENOME is /genomics/''MyProject'') /genomics/''MyProject'' (which stands for ./ in following lines) ./beton ./beton/miniconfig ./fiches ./fiches/bornesdespabs ./fiches/lesgenomescomplets ./prottfa ./protembl and/or ./nuctfa ./pnucembl and why not ./blastp ./tblastn ./blastpMus_musculus ./blastpHomo_sapiens ./msf ./msfMus_musculus etc. All these directories and files are automatically created by Gscope. 2ebdc1b2f566b5181f7503a35847dfd4b5558c9c 2598 2597 2009-04-16T10:48:11Z Ripp 1 wikitext text/x-wiki A [[Gscope]] Project is a directory tree containing flat files suppose REPERTOIREDUGENOME is /genomics/''MyProject'' and the suffixe for each Gscope sequence name is BOX /genomics/''MyProject''/ (which stands for ./ in following lines) ./beton/ ./beton/miniconfig ./fiches/ ./fiches/bornesdespabs (contains the positions for BOX001 to BOX189) ./fiches/lesgenomescomplets ./fiches/..... (and other flat files) ./prottfa/ ./prottfa/BOX001 ./prottfa/BOX002 ./prottfa/...... ./prottfa/BOX189 ./protembl/ (with all BOX) and/or ./nuctfa/ (with all BOX) ./pnucembl (with all BOX) and why not ./blastp/ (with all BOX) ./tblastn/ (with all BOX) ./blastpMus_musculus/ (with all BOX) ./blastpHomo_sapiens/ (with all BOX) ./msf/ (with all BOX) ./msfMus_musculus/ (with all BOX) etc. All these directories and files are automatically created by Gscope. 5b7b9686d3e744bbfecd5f2a21bc9da5d8814406 2599 2598 2009-04-16T10:49:52Z Ripp 1 wikitext text/x-wiki A [[Gscope]] Project is a directory tree containing flat files suppose REPERTOIREDUGENOME is /genomics/''MyProject'' and the suffixe for each Gscope sequence name is BOX /genomics/''MyProject''/ (which stands for ./ in following lines) ./beton/ ./beton/miniconfig ./fiches/ ./fiches/bornesdespabs (contains the positions for BOX001 to BOX189) ./fiches/lesgenomescomplets ./fiches/..... (and other flat files) following directories contain all BOX001 to BOX189 as shown for prottfa ./prottfa/ ./prottfa/BOX001 ./prottfa/BOX002 ./prottfa/...... ./prottfa/BOX189 ./protembl/ and/or ./nuctfa/ ./pnucembl and why not ./blastp/ ./tblastn/ ./blastpMus_musculus/ ./blastpHomo_sapiens/ ./msf/ ./msfMus_musculus/ etc. All these directories and files are automatically created by Gscope. 55fef6e8cca0509be4cb3bc6ffd6114ad0d8c5e7 2600 2599 2009-04-16T10:52:44Z Ripp 1 wikitext text/x-wiki A [[Gscope]] Project is a directory tree containing flat files suppose REPERTOIREDUGENOME is /genomics/''MyProject'' and the suffixe for each Gscope sequence name is BOX /genomics/''MyProject''/ (which stands for ./ in following lines) ./beton/ ./beton/miniconfig ./fiches/ ./fiches/bornesdespabs (contains the positions for BOX001 to BOX189) ./fiches/lesgenomescomplets ./fiches/..... (and other flat files) following directories contain all BOX001 to BOX189 as shown for prottfa ./prottfa/ ./prottfa/BOX001 ./prottfa/BOX002 ./prottfa/...... ./prottfa/BOX189 ./protembl/ ./protembl/BOX* and/or ./nuctfa/ ./nuctfa/BOX* ./nucembl/ ./nucembl/BOX* and why not ./blastp/ ./blastp/BOX* ./tblastn/ ./tblastn/BOX* ./blastpMus_musculus/ ./blastpMus_musculus/BOX* ./blastpHomo_sapiens/ ./blastpHomo_sapiens/BOX* ./msf/ ./msf/BOX* ./msfMus_musculus/ ./msfMus_musculus/BOX* etc. All these directories and files are automatically created by Gscope. dc613dc809e5d411b3511f09f124651173fe6471 Gscope Procedures 0 1418 2604 2009-04-17T13:04:04Z Ripp 1 New page: You'll find here description about Gscope Procedures ===Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/gscope_html_server.tcsh?Zero&info&body&Iterator proc Iterator] wikitext text/x-wiki You'll find here description about Gscope Procedures ===Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/gscope_html_server.tcsh?Zero&info&body&Iterator proc Iterator] 663a2cfa4c3b32515ab12e92501cb9591c6df9d4 2605 2604 2009-04-17T13:37:24Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures ===Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator] a60eddd65262b4ca1f5ac5849b512c6185fc9808 2606 2605 2009-04-17T13:41:39Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures ===Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ La derniere va le plus vite !!!!!!!!!!!!!!!!!!!! Attention les listes sont numerotes de 0 a 2 a l'exterieur (pour le user) mais elles sont indexes de 2 a 0 dans la proc (en interne) Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> d829d7b7490cc5873d3ef6e713f14c25577af357 2607 2606 2009-04-17T13:47:32Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures ===Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ab088f9185d2008524c3e55d44eae539d5991757 2608 2607 2009-04-17T13:48:25Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> e33158a6ac13c36ce5093f683f2b6aa0d8d37195 2609 2608 2009-04-17T13:55:49Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> f4350692c033d6b5870add2dcdcea7c90c87ff05 2622 2609 2009-04-20T16:11:54Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> 0dad9455dbd6e2c2b7d97b72ddc1abc6cd5d701a 2624 2622 2009-04-24T10:42:20Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc Go=== * proc GoGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc GoGo] <source lang="tcl"> set ListOfPfam [GoGo "protein binding" PFAM] set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGo "protein binding" GENE] set ListOfGene [GoGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol] </source> * proc GoFromGene Gene Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc GoGo] <source lang="tcl"> set ListOfGO [GoFromGene PAX6 GO] set ListOfGOWithAcc [GoFromGene PAX6 GOacc] set ListOfGOWithName [GoFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id] </source> 52c0cfdcad5ab2e371ebba20c92e98efc1a4be95 2625 2624 2009-04-24T10:47:11Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc Go=== Several procs are concerned ... see the source file gscope_go.tcl * proc GoGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] <source lang="tcl"> set ListOfPfam [GoGo "protein binding" PFAM] set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGo "protein binding" GENE] set ListOfGene [GoGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol] </source> * proc GoFromGene Gene Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromGene proc GoGo] <source lang="tcl"> set ListOfGO [GoFromGene PAX6 GO] set ListOfGOWithAcc [GoFromGene PAX6 GOacc] set ListOfGOWithName [GoFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id] </source> * proc GoFromPfam Pfam Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromPfam proc GoGo] <source lang="tcl"> set ListOfGO [GoFromPfam PF09088 GO] set ListOfGOWithAcc [GoFromPfam PF09088 GOacc] set ListOfGOWithName [GoFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoFromPfam PF09088 GOacc,a.source_db_id] </source> 25af4a37b72960f28ede2b899a90807eed467d14 2626 2625 2009-04-24T10:48:04Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc Go...=== Several procs are concerned ... see the source file gscope_go.tcl * proc '''GoGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] <source lang="tcl"> set ListOfPfam [GoGo "protein binding" PFAM] set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGo "protein binding" GENE] set ListOfGene [GoGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol] </source> * proc '''GoFromGene''' Gene Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromGene proc GoGo] <source lang="tcl"> set ListOfGO [GoFromGene PAX6 GO] set ListOfGOWithAcc [GoFromGene PAX6 GOacc] set ListOfGOWithName [GoFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id] </source> * proc '''GoFromPfam''' Pfam Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromPfam proc GoGo] <source lang="tcl"> set ListOfGO [GoFromPfam PF09088 GO] set ListOfGOWithAcc [GoFromPfam PF09088 GOacc] set ListOfGOWithName [GoFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoFromPfam PF09088 GOacc,a.source_db_id] </source> 0f692fba6d608346a43f80992eda3f4cc7f3c72e 2627 2626 2009-04-24T10:48:56Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc Go...=== Several procs are concerned ... see the source file gscope_go.tcl * proc '''GoGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] <source lang="tcl"> set ListOfPfam [GoGo "protein binding" PFAM] set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGo "protein binding" GENE] set ListOfGene [GoGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol] </source> * proc '''GoFromGene''' Gene Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromGene proc GoFromPfam] <source lang="tcl"> set ListOfGO [GoFromGene PAX6 GO] set ListOfGOWithAcc [GoFromGene PAX6 GOacc] set ListOfGOWithName [GoFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id] </source> * proc '''GoFromPfam''' Pfam Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromPfam proc GoFromPfam] <source lang="tcl"> set ListOfGO [GoFromPfam PF09088 GO] set ListOfGOWithAcc [GoFromPfam PF09088 GOacc] set ListOfGOWithName [GoFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoFromPfam PF09088 GOacc,a.source_db_id] </source> 9695fac901bbbdda23ca89e34734420148157cfd 2628 2627 2009-04-24T10:51:27Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc Go...=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] * proc '''GoGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] <source lang="tcl"> set ListOfPfam [GoGo "protein binding" PFAM] set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGo "protein binding" GENE] set ListOfGene [GoGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol] </source> * proc '''GoFromGene''' Gene Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromGene proc GoFromPfam] <source lang="tcl"> set ListOfGO [GoFromGene PAX6 GO] set ListOfGOWithAcc [GoFromGene PAX6 GOacc] set ListOfGOWithName [GoFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id] </source> * proc '''GoFromPfam''' Pfam Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromPfam proc GoFromPfam] <source lang="tcl"> set ListOfGO [GoFromPfam PF09088 GO] set ListOfGOWithAcc [GoFromPfam PF09088 GOacc] set ListOfGOWithName [GoFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoFromPfam PF09088 GOacc,a.source_db_id] </source> b66521cf810af2dabb68842f62c7970cb431c11c 2629 2628 2009-04-25T10:05:14Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc GoGet...=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] * proc '''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] <source lang="tcl"> set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> * proc '''GoGetFromGene''' Gene Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam] <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> * proc '''GoGetFromFromPfam''' Pfam Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> b909f5d91540effbb15a8c6654a824aefe2d8eed 2630 2629 2009-04-25T10:06:20Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc GoGetFromGo proc GoGetFromGene Proc GoGetFromPfam proc GoInfo=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] * proc '''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] <source lang="tcl"> set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> * proc '''GoGetFromGene''' Gene Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam] <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> * proc '''GoGetFromFromPfam''' Pfam Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> a113657e59005ad285c07943a555f56e664fe9e7 2631 2630 2009-04-25T10:06:59Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc GoGetFromGo GoGetFromGene GoGetFromPfam GoInfo=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] * proc '''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] <source lang="tcl"> set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> * proc '''GoGetFromGene''' Gene Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam] <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> * proc '''GoGetFromFromPfam''' Pfam Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> d148fa314b1995e4eba516cf427e6d211a9e959b 2632 2631 2009-04-25T10:14:14Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc GoGetFromGo {Go GENEwhatyouneed JoinCar RecordsJoinCar}=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] * proc '''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] <source lang="tcl"> set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ===proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] * proc '''GoGetFromGene''' Gene Quoi JoinCar RecordsJoinCar See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam] <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ===proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> e53088b7434a98c15c10381a33ee3fe35a2206b8 Main Page 0 1279 2610 2464 2009-04-20T13:29:23Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] wiki top secret du LBGI. ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [http://genoret.igbmc.fr/genoret/wiki Genoret] * [[Fed]] Federating data * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 48065fe7199024d84aad32619b5e0f38c108d0d7 2611 2610 2009-04-20T13:34:32Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] wiki top secret du LBGI. ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 764758e0cfe61e84be9b905bc648ab2dccdd2216 2615 2611 2009-04-20T13:54:51Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] '''wiki top secret du LBGI'''. ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] e3253aaf90799d61570655e65ed1d8412c7c0a8b 2616 2615 2009-04-20T13:55:23Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] . ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] a61db7b63301d55102b118361b813052389019cc Fed 0 1286 2612 2578 2009-04-20T13:49:02Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===Mise à oeuvre de tsearch pour l'ensemble d'un base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). http://xxxxxx.igbmc.fr/genoret/phpRR/CheckTsearch.php?database=ddddddddddddddd En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables. update x set x=x b59252db62c79348aeb634885792dec94e966514 2613 2612 2009-04-20T13:51:03Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===Mise à oeuvre de tsearch pour l'ensemble d'un base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). http://lbgi.igbmc.fr/''site''/phpRR/CheckTsearch.php?database=''database'' En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c. update t set c=c 7bc61ecc41a1cfa5db8a4791318c835b498f4e2a 2614 2613 2009-04-20T13:52:16Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===Mise à oeuvre de tsearch pour l'ensemble d'un base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c. update t set c=c 059ffb997d4af05929c6d335d018c5711d726353 GscopeSql 0 1419 2618 2009-04-20T14:46:02Z Ripp 1 New page: GscopeSql how to access postgresql and mysql databases. Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir [http://lbgi.igbmc.fr/gag/cgi-bin/G... wikitext text/x-wiki GscopeSql how to access postgresql and mysql databases. Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl] et [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl]) <source lang="tcl"> CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret]) set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist") CanalSqlDisconnect </source> Il detecte tout seul s'il s'agit de postgresql ou mysql 2b924ab2c745cd952309fb3422f4dc4e2fe94a1a 2619 2618 2009-04-20T14:47:28Z Ripp 1 wikitext text/x-wiki GscopeSql how to access postgresql and mysql databases. Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl] et [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl]) <source lang="tcl"> CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret] ou Gx ou Dbgs ou FedLord ou ...) set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist") CanalSqlDisconnect </source> Il detecte tout seul s'il s'agit de postgresql ou mysql 28d7d4928cfc5b00482585dd073d459eefa60036 2620 2619 2009-04-20T14:56:59Z Ripp 1 wikitext text/x-wiki GscopeSql how to access postgresql and mysql databases. Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl] et [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl]) <source lang="tcl"> CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret] ou Gx ou Dbgs ou FedLord ou ...) set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist") CanalSqlDisconnect </source> Il detecte tout seul s'il s'agit de postgresql ou mysql. Duc oup les commandes simples SELECT, INSERT, UPDATE, DELETE sont les mêmes. En général les SELECT se font très simplement par <source lang="tcl"> foreach {a b c} [SqlExec "select A,B,C from table" "GetList"] { ... } </source> On peut aussi récupérer le 'handle' pour faire des choses plus savantes. En MYSQL on peut faire SqlExec mysqlinfo ... bref les vraies commandes mysql (voir le code source). 422fb3dcb774914072191a82472289c564609b4e 2621 2620 2009-04-20T15:00:44Z Ripp 1 wikitext text/x-wiki GscopeSql how to access postgresql and mysql databases. Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl] et [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl]) <source lang="tcl"> CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret] ou Gx ou Dbgs ou FedLord ou ...) set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist") CanalSqlDisconnect </source> Il detecte tout seul s'il s'agit de postgresql ou mysql. Du coup les commandes simples SELECT, INSERT, UPDATE, DELETE sont les mêmes. En général les SELECT se font très simplement par <source lang="tcl"> foreach {a b c} [SqlExec "select A,B,C from table" "GetList"] { ... } </source> On peut aussi récupérer le 'handle' pour faire des choses plus savantes. En MYSQL on peut faire SqlExec mysqlinfo ... bref les vraies commandes mysql (voir [http://www.ucl.ac.uk/is/mysql/tcl/ MySql Tcl]). 7295f2a6a837bd13009c7b49728ba67b9ad38d48 Gscope Procedures 0 1418 2633 2632 2009-04-25T10:19:07Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar}=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] '''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] <source lang="tcl"> set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ===proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam] '''GoGetFromGene''' returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ===proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] '''GoGetFromGene''' returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> 6ceaa87c5f3f6c3bb94a61b4cac4a36f4c3eff9f 2634 2633 2009-04-25T10:20:51Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ===proc Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ===proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar}=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ===proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ===proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}=== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> 1faa02406aefaf0f888f4ff62bce43778d407453 2635 2634 2009-04-25T10:21:30Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> c0916e3cf6c24b1b8f15fb51ca89e83fccc0898d 2636 2635 2009-04-25T10:22:15Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo] * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> fc181eb25dff9a9f58362c00cd22d8c6d4a50e5d 2637 2636 2009-04-28T10:10:55Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> d4ed7b8f9344ed7e5d7f16fdb4cfa1396e7042be 2638 2637 2009-04-28T13:29:38Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) / * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> f9eacaf7c3e34e6654670daff84bdfd060e6e0a3 2639 2638 2009-05-15T08:55:01Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) / * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> 9ed4fd92c33bcfdf6f978f037b02f5847b7abc8e 2640 2639 2009-05-15T08:57:16Z Ripp 1 wikitext text/x-wiki You'll find here description about Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> a36c9f72d730b3935c76e64b2f11c7ac56dd5c73 ProGS 0 1298 2641 1896 2009-05-29T09:41:39Z Ripp 1 wikitext text/x-wiki ProGS est la base de données Gscope Clonage Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule ! En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une étude Gscope de la séquence au [[MACSIMS]] de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales. ProGS est accessible par web à travers [[GscopeHtmlServer]] [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS] Il faudrait développer Gscope Clonage en base de données SQL ... ==Comment commander des oligos ?== dcd2085a2bfc6806a99f7b467ddbbb09d336db0d Main Page 0 1279 2642 2616 2009-05-29T12:17:36Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] . ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 9b78f85627b85f886d5bba08fc40d133c58509d0 2670 2642 2009-12-13T16:44:19Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] . ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] bb4201f77c60b954849966585fbbeca99f7560f0 R 0 1320 2643 2563 2009-06-12T11:51:37Z Dkieffer 2 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.9.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro 8c3e049983f8f87e19b1cf97a1e774ed7b91949a 2656 2643 2009-07-03T16:30:56Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.9.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro 8f67c7a1f59145e389fb04698ec19b74c58abdbd 2657 2656 2009-07-24T07:50:48Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.9.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro 9a1ad6c96c4fd78ce6e17aeeb3d9e7c38c9b08ff 2658 2657 2009-07-24T07:52:21Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.9.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro d37d2ae612467032a46195fa6cfb14a7b4d50a57 2659 2658 2009-07-24T08:06:25Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.9.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro 13bdf8aeb31a6247d3ad7db495211bd7533b3f4a 2660 2659 2009-07-24T08:07:04Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.9.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro 4045a99a47c0fa41b6dab57869e2d971a9eaa12a 2668 2660 2009-11-16T09:39:02Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR nov 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro 637fa6733e4632ed22d58a3c87131f5ca57044a3 2669 2668 2009-11-16T09:39:17Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR nov 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro af539ccaad59492301775c7fe76717a10cec5ae1 Fed 0 1286 2644 2614 2009-06-19T07:16:21Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===Mise à oeuvre de tsearch pour l'ensemble d'un base de données postgresql=== Attention la suite "Il suffit... " marche mais il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> Il suffit de lancer (il est dans le menu WebTools/WebSite). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c. update t set c=c d2ef7b7e967379f011f1f1a15484582ccbdd6cfb 2645 2644 2009-06-19T07:20:52Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===Mise en oeuvre de tsearch pour l'ensemble d'un base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> Il suffit de lancer (il est dans le menu WebTools/WebSite). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c. update t set c=c f3c86599c99d693ce590133f140a0225641c18d9 2648 2645 2009-06-19T07:27:36Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===Mise en oeuvre de tsearch pour l'ensemble d'un base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser. http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. c2ab8c1bb42c90e2f7851f135d6475f2f26f65f9 2649 2648 2009-06-19T07:28:16Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===CheckTsearch : Mise en oeuvre de tsearch pour l'ensemble d'un base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser. http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. fca7dce84fc13488c51a77f00f78347e42106d89 2650 2649 2009-06-19T07:28:59Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===[[CheckTsearch]] : Mise en oeuvre de tsearch pour l'ensemble d'un base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser. http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. 2bb7ca2f0cafa3184220ea7628a8b1cfe36db00b 2651 2650 2009-06-19T07:29:31Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser. http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. acb1b15dce6e8a9a7fd36a9593142e82287c9d6e 2654 2651 2009-07-01T16:19:02Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** Datafiles can be uploaded in Galleries of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database * Gallery ** The Galleries are organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. * Datafile ** a Datafile is a file which was uploaded by a member. ** a Datafile has an owner. ** It can be referenced in several galleries. ** it has a visibility group called Grog which allows to define access rights * Grog ** a Grog is a group of groups, and people. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser. http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. f2a9461a8a6f684b4e5454f7c39950f348b01ffa 2655 2654 2009-07-01T16:19:52Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** Datafiles can be uploaded in Galleries of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database * [[Gallery]] ** The Galleries are organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. * [[Datafile]] ** a Datafile is a file which was uploaded by a member. ** a Datafile has an owner. ** It can be referenced in several galleries. ** it has a visibility group called Grog which allows to define access rights * [[Grog]] ** a Grog is a group of groups, and people. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard Et voici quelques outils que Raymond a rajoutés depuis ===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser. http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. 090ce9bf026e0ad62ae91a57aa3c8cf7ca8c1a9e CheckTsearch 0 1420 2646 2009-06-19T07:24:47Z Ripp 1 New page: Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a c... wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c. update t set c=c 20ea328c65af60432d8424aad99e5ae44e8e9aab 2647 2646 2009-06-19T07:26:19Z Ripp 1 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c. update t set c=c b0bb45c90963a67666f02fb9e08bdc875d260e5a 2652 2647 2009-06-19T07:37:04Z Ripp 1 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais ... ===Concernant la database=== ===Il faut la fonction trigger dans le Catalog de postgresql=== Pour cela il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> ===Attention idxfti n'est pas mis à jour s'il y a déjà des données=== Il faut faire, pour toutes les tables t, colonnes c. update t set c=c c37fa34cf36fa37f3ce5cf4f9361d012d85c5e16 2653 2652 2009-06-19T07:39:32Z Ripp 1 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais ... ===Concernant la database=== Ca marche si la database est la base Fed dans laquelle on est. Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php ===Il faut la fonction trigger dans le Catalog de postgresql=== Pour cela il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> ===Attention idxfti n'est pas mis à jour s'il y a déjà des données=== Il faut faire, pour toutes les tables t, colonnes c. update t set c=c 08581044221770280c75de171160f5cb57be197b 2662 2653 2009-09-03T13:29:43Z Ripp 1 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais ... ===Concernant la database=== Ca marche si la database est la base Fed dans laquelle on est. Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php ===Il faut la fonction trigger dans le Catalog de postgresql=== Pour cela il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> et il faut aussi définir la fontion pltcl f_replace_chars <source lang='tcl'> -- Function: f_replace_chars(text) -- DROP FUNCTION f_replace_chars(text); CREATE OR REPLACE FUNCTION f_replace_chars(text) RETURNS text AS $BODY$ declare mytext alias for $1; res text; begin res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ', 'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY'); res := replace(res, 'Þ' , 'TH'); res := replace(res, 'þ' , 'th'); res := replace(res, 'Ð' , 'DH'); res := replace(res, 'ð' , 'dh'); res := replace(res, 'ß' , 'ss'); res := replace(res, '¦' , 'OE'); res := replace(res, '¶' , 'oe'); res := replace(res, 'Æ' , 'AE'); res := replace(res, 'æ' , 'ae'); res := replace(res, 'Œ' , 'OE'); res := replace(res, 'œ' , 'oe'); res := replace(res, '©' , 'C'); res := replace(res, '®' , 'R'); res := replace(res, '¾' , '3/4'); res := replace(res, '¼' , '1/4'); res := replace(res, 'µ' , 'mu'); return res; end; $BODY$ LANGUAGE 'plpgsql' VOLATILE COST 100; ALTER FUNCTION f_replace_chars(text) OWNER TO berthomg; </source> pour la database. Il la met dans catalog functions ===Attention idxfti n'est pas mis à jour s'il y a déjà des données=== Il faut faire, pour toutes les tables t, colonnes c. update t set c=c a14fdf26f38a7a0b5a5735dbaebc3454d3c51f7c 2663 2662 2009-09-03T13:33:29Z Ripp 1 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais ... ===Concernant la database=== Ca marche si la database est la base Fed dans laquelle on est. Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php ===Il faut la fonction trigger dans le Catalog de postgresql=== Pour cela il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> et il faut aussi définir la fontion pltcl f_replace_chars <source lang='tcl'> -- Function: f_replace_chars(text) -- DROP FUNCTION f_replace_chars(text); CREATE OR REPLACE FUNCTION f_replace_chars(text) RETURNS text AS $BODY$ declare mytext alias for $1; res text; begin res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ', 'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY'); res := replace(res, 'Þ' , 'TH'); res := replace(res, 'þ' , 'th'); res := replace(res, 'Ð' , 'DH'); res := replace(res, 'ð' , 'dh'); res := replace(res, 'ß' , 'ss'); res := replace(res, '¦' , 'OE'); res := replace(res, '¶' , 'oe'); res := replace(res, 'Æ' , 'AE'); res := replace(res, 'æ' , 'ae'); res := replace(res, 'Œ' , 'OE'); res := replace(res, 'œ' , 'oe'); res := replace(res, '©' , 'C'); res := replace(res, '®' , 'R'); res := replace(res, '¾' , '3/4'); res := replace(res, '¼' , '1/4'); res := replace(res, 'µ' , 'mu'); return res; end; $BODY$ LANGUAGE 'plpgsql' VOLATILE COST 100; ALTER FUNCTION f_replace_chars(text) OWNER TO berthomg; </source> pour la database. Il la met je ne sais pas où ... je l'avais trouvée dans Pg_catalog functions de genoret ===Attention idxfti n'est pas mis à jour s'il y a déjà des données=== Il faut faire, pour toutes les tables t, colonnes c. update t set c=c d37690744e318a1a8b096d0f4f08174554b2cb62 2664 2663 2009-09-03T13:52:04Z Ripp 1 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais ... ===Concernant la database=== Ca marche si la database est la base Fed dans laquelle on est. Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php ===Il faut la fonction trigger dans le Catalog de postgresql=== Pour cela il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> et il faut aussi définir la fontion pltcl f_replace_chars <source lang='tcl'> set search_path to pg_catalog; -- Function: f_replace_chars(text) -- DROP FUNCTION f_replace_chars(text); CREATE OR REPLACE FUNCTION f_replace_chars(text) RETURNS text AS $BODY$ declare mytext alias for $1; res text; begin res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ', 'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY'); res := replace(res, 'Þ' , 'TH'); res := replace(res, 'þ' , 'th'); res := replace(res, 'Ð' , 'DH'); res := replace(res, 'ð' , 'dh'); res := replace(res, 'ß' , 'ss'); res := replace(res, '¦' , 'OE'); res := replace(res, '¶' , 'oe'); res := replace(res, 'Æ' , 'AE'); res := replace(res, 'æ' , 'ae'); res := replace(res, 'Œ' , 'OE'); res := replace(res, 'œ' , 'oe'); res := replace(res, '©' , 'C'); res := replace(res, '®' , 'R'); res := replace(res, '¾' , '3/4'); res := replace(res, '¼' , '1/4'); res := replace(res, 'µ' , 'mu'); return res; end; $BODY$ LANGUAGE 'plpgsql' VOLATILE COST 100; ALTER FUNCTION f_replace_chars(text) OWNER TO berthomg; </source> pour la database. Il la met dans pg_catalog functions. ===Attention idxfti n'est pas mis à jour s'il y a déjà des données=== Il faut faire, pour toutes les tables t, colonnes c. update t set c=c 6597e66969087b377df9cb2e15c7edf37f797397 2665 2664 2009-09-03T13:53:08Z Ripp 1 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais ... ===Concernant la database=== Ca marche si la database est la base Fed dans laquelle on est. Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php ===Il faut la fonction trigger dans le Catalog de postgresql=== Pour cela il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> et il faut aussi définir la fontion pltcl f_replace_chars pg_catalog functions. <source lang='tcl'> set search_path to pg_catalog; -- Function: f_replace_chars(text) -- DROP FUNCTION f_replace_chars(text); CREATE OR REPLACE FUNCTION f_replace_chars(text) RETURNS text AS $BODY$ declare mytext alias for $1; res text; begin res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ', 'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY'); res := replace(res, 'Þ' , 'TH'); res := replace(res, 'þ' , 'th'); res := replace(res, 'Ð' , 'DH'); res := replace(res, 'ð' , 'dh'); res := replace(res, 'ß' , 'ss'); res := replace(res, '¦' , 'OE'); res := replace(res, '¶' , 'oe'); res := replace(res, 'Æ' , 'AE'); res := replace(res, 'æ' , 'ae'); res := replace(res, 'Œ' , 'OE'); res := replace(res, 'œ' , 'oe'); res := replace(res, '©' , 'C'); res := replace(res, '®' , 'R'); res := replace(res, '¾' , '3/4'); res := replace(res, '¼' , '1/4'); res := replace(res, 'µ' , 'mu'); return res; end; $BODY$ LANGUAGE 'plpgsql' VOLATILE COST 100; ALTER FUNCTION f_replace_chars(text) OWNER TO ripp; </source> ===Attention idxfti n'est pas mis à jour s'il y a déjà des données=== Il faut faire, pour toutes les tables t, colonnes c. update t set c=c f0ee9fce3da144dee08007a96ceee640ab1d7d7d 2666 2665 2009-09-03T13:54:06Z Ripp 1 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais ... ===Concernant la database=== Ca marche si la database est la base Fed dans laquelle on est. Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php ===Il faut la fonction trigger dans le Catalog de postgresql=== Pour cela il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> et il faut aussi définir la fonction f_replace_chars dans pg_catalog functions. <source lang='tcl'> set search_path to pg_catalog; -- Function: f_replace_chars(text) -- DROP FUNCTION f_replace_chars(text); CREATE OR REPLACE FUNCTION f_replace_chars(text) RETURNS text AS $BODY$ declare mytext alias for $1; res text; begin res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ', 'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY'); res := replace(res, 'Þ' , 'TH'); res := replace(res, 'þ' , 'th'); res := replace(res, 'Ð' , 'DH'); res := replace(res, 'ð' , 'dh'); res := replace(res, 'ß' , 'ss'); res := replace(res, '¦' , 'OE'); res := replace(res, '¶' , 'oe'); res := replace(res, 'Æ' , 'AE'); res := replace(res, 'æ' , 'ae'); res := replace(res, 'Œ' , 'OE'); res := replace(res, 'œ' , 'oe'); res := replace(res, '©' , 'C'); res := replace(res, '®' , 'R'); res := replace(res, '¾' , '3/4'); res := replace(res, '¼' , '1/4'); res := replace(res, 'µ' , 'mu'); return res; end; $BODY$ LANGUAGE 'plpgsql' VOLATILE COST 100; ALTER FUNCTION f_replace_chars(text) OWNER TO ripp; </source> ===Attention idxfti n'est pas mis à jour s'il y a déjà des données=== Il faut faire, pour toutes les tables t, colonnes c. update t set c=c 0a9e161f423ce5b8b3070d7bcf44c23f9b1c28d4 2667 2666 2009-09-17T12:26:17Z Poidevin 11 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais ... ===Concernant la database=== Ca marche si la database est la base Fed dans laquelle on est. Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php ===Il faut la fonction trigger dans le Catalog de postgresql=== Pour cela il fallait d'abord que je fasse <source lang='sql'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] if {![info exists NEW($col)]} {continue} spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> et il faut aussi définir la fonction f_replace_chars dans pg_catalog functions. <source lang='tcl'> set search_path to pg_catalog; -- Function: f_replace_chars(text) -- DROP FUNCTION f_replace_chars(text); CREATE OR REPLACE FUNCTION f_replace_chars(text) RETURNS text AS $BODY$ declare mytext alias for $1; res text; begin res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ', 'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY'); res := replace(res, 'Þ' , 'TH'); res := replace(res, 'þ' , 'th'); res := replace(res, 'Ð' , 'DH'); res := replace(res, 'ð' , 'dh'); res := replace(res, 'ß' , 'ss'); res := replace(res, '¦' , 'OE'); res := replace(res, '¶' , 'oe'); res := replace(res, 'Æ' , 'AE'); res := replace(res, 'æ' , 'ae'); res := replace(res, 'Œ' , 'OE'); res := replace(res, 'œ' , 'oe'); res := replace(res, '©' , 'C'); res := replace(res, '®' , 'R'); res := replace(res, '¾' , '3/4'); res := replace(res, '¼' , '1/4'); res := replace(res, 'µ' , 'mu'); return res; end; $BODY$ LANGUAGE 'plpgsql' VOLATILE COST 100; ALTER FUNCTION f_replace_chars(text) OWNER TO ripp; </source> ===Attention idxfti n'est pas mis à jour s'il y a déjà des données=== Il faut faire, pour toutes les tables t, colonnes c. update t set c=c 1c60e7c4de23689f79b8eead602781f1b6b607f2 Bird Databases List 0 1404 2661 2512 2009-08-12T14:43:16Z Poidevin 11 wikitext text/x-wiki These database below are available in [[BIRD]] System. We could explore these data by [[BIRD Data Access Protocol]] =GENBANK DATABASES= *GBEST : GENBANK EST *GBWGS : GENBANK WGS *GBRL : GENNANK RELEASE *GBNEW : GENNANK NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW =REFSEQ DATABASES= *REFSEQP :REFSEQ PROTEIN *REFSEQG :REFSEQ GENOMIC *REFSEQRNA :REFSEQ RNA *REFSEQNEW :REFSEQ NEW *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW =UNIPROT DATABASES= *UNIPROT :Swiss-Prot, TrEMB *UNIPROT_VSP : varsplic =STRUCTURE PDB DATABASE= *PDB: Protein Data Bank =GEO DATABASE= *MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH) =OTHER= *UCSC, Alignments, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ... =ALIAS Database Names= *PROTEIN: UNIPROT +PDB +REFSEQP *REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW *GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW *NUCLEOTIDE : =GBFULL Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata). [[Category:Bird_project]] 61823c19d92303a99a413de5ed078970d2243263 String 0 1421 2671 2009-12-13T16:46:20Z Ripp 1 New page: STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interac... wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local la base de données PostgreSQL String8.2 et développer quelques outils pour l'interroger. =Gscope DePartoutAString= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> DePartoutAString {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé Sting_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining * GetWhat ne sert plus car on rend tout ! DePartoutAString va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ Identifiers contient les identifiants String QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec au moins deux interactions String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non WithAny.parser je sais pas ! WithAny.string network avec toutes les interactions =PHP String= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "DePartoutAString", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans DePartoutAString !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tou ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # IL apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 497cb70a89f8f19cd23df056ecd5883e7b0dc33f 2672 2671 2009-12-13T16:52:15Z Ripp 1 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment chrger Cytoscape avec les données fournies. =Gscope DePartoutAString= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> DePartoutAString {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé Sting_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining * GetWhat ne sert plus car on rend tout ! DePartoutAString va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ Identifiers contient les identifiants String QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec au moins deux interactions String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non WithAny.parser je sais pas ! WithAny.string network avec toutes les interactions =PHP String= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "DePartoutAString", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans DePartoutAString !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tou ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # IL apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 00db13b1b07e64486114e605514bad96ce18b177 2673 2672 2009-12-16T09:46:14Z Ripp 1 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment chrger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé Sting_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining * GetWhat ne sert plus car on rend tout ! StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ Identifiers contient les identifiants String QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec au moins deux interactions String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non WithAny.parser je sais pas ! WithAny.string network avec toutes les interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 574e4e0df4a9671361d7235742b0987919a90789 2674 2673 2009-12-16T10:05:43Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé Sting_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining * GetWhat ne sert plus car on rend tout ! StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ Identifiers contient les identifiants String QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec au moins deux interactions String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non WithAny.parser je sais pas ! WithAny.string network avec toutes les interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 574cdcbdc5a6afa8d904311aec6e5ce22b067001 2675 2674 2009-12-16T10:07:22Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining * GetWhat ne sert plus car on rend tout ! StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ Identifiers contient les identifiants String QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec au moins deux interactions String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non WithAny.parser je sais pas ! WithAny.string network avec toutes les interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 576dfa95a031d3ec18651f2e788782963bc35002 2676 2675 2009-12-16T10:13:32Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ Identifiers contient les identifiants String QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec au moins deux interactions String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non WithAny.parser je sais pas ! WithAny.string network avec toutes les interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond a2a4a318fbf9ba33a583e7f20d0d5a75288203e0 2677 2676 2009-12-16T10:21:27Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression) (par défaut contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ) Identifiers contient les identifiants String QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec au moins deux interactions String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non WithAny.parser je sais pas ! WithAny.string network avec toutes les interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 149294b8f9fc2b085109eb6444903aadf7e84106 2678 2677 2009-12-16T10:24:53Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes de départ QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec au moins deux interactions String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non WithAny.parser je sais pas ! WithAny.string network avec toutes les interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 65c8e326f105edb5a6535a353f743e232ad03969 2679 2678 2009-12-16T10:33:24Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes de départ QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec au moins deux interactions String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non WithAny.parser je sais pas ! WithAny.string network avec toutes les interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 9e588a8f81961582460ca4276e707a85694e25f3 2680 2679 2009-12-16T10:46:06Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser je sais pas ! WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 2e41ccd790185509a2dbf5a44e2a0ca4f9534199 2681 2680 2009-12-16T10:52:30Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 NB: la ligne d'entête doit commencer par # <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser je sais pas ! WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 846ba5bf53dc12b05e31ad7d088b4d6db2e71b5d 2682 2681 2009-12-16T10:53:23Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.) NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser je sais pas ! WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 6460c12ec94678dd8b5e7ea9a3e85121688e4db5 String 0 1421 2683 2682 2009-12-16T10:53:55Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser je sais pas ! WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond de535bd64da45bc7d6916a58d92c91cf20af2448 2684 2683 2009-12-16T10:56:58Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser je sais pas ! WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond a74580667ab5bfa232880fff83402fce45965b83 2685 2684 2009-12-16T10:57:28Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser je sais pas ! WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond dce4a3ecd3252a88a80a4acd26a2b979ac09665c 2686 2685 2009-12-16T13:49:35Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 42c5d416cdd7130657f1b8007132530947f532b2 2687 2686 2009-12-16T13:51:38Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 2b7b0b2d2b2b68fc723ccec549245a81ee08c47a 2688 2687 2009-12-16T13:52:01Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 20a1ef5602302d64d3d584c9766339ed23ec2589 2689 2688 2009-12-16T13:54:59Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 881c925ea89d84a5ffccd98246782c455086295e 2690 2689 2009-12-16T13:58:26Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 6f60755f5d223dfad2909b333e2f1a5d53f5ab36 2731 2690 2010-03-25T06:58:24Z Wraff 5 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 6e79afa5cd08052bc9f799dca7c991909d33902a Gscope Procedures 0 1418 2691 2640 2010-01-20T14:30:43Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a String analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see [[String]] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> f146fcbce8119d8ec409393aa3f1bfe839f1d8dc 2692 2691 2010-01-20T14:32:25Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see [[String]] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> 620a77b8be5cbdb7234e05a678fecd50ef743ee8 2693 2692 2010-01-20T14:36:17Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> dbc90eb80bdecc887d6c2bb65c672612dd80b866 BIRD 0 1313 2694 2576 2010-01-28T13:14:46Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H, Wicker N., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30] 3. "Conception of the BIRD System" is preparing for ..... 4. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 45f05ebc7f6d98de5f5884cce2a310db94b11072 2695 2694 2010-01-29T17:33:40Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30] * These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752) * These authors contributed equally to this work 3. "Conception of the BIRD System" is preparing for ..... 4. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] f4e16c413e70882be15c1d790987b35bbab0978b 2696 2695 2010-01-29T17:35:44Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 3. "Conception of the BIRD System" is preparing for ..... 4. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 9fb462e4115d9c512e958696fe0c891b43785e13 2697 2696 2010-01-29T17:36:52Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 3. "Conception of the BIRD System" is preparing for ..... 4. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] e694ba61856741f5ad05c853ef6d86658585013a 2698 2697 2010-01-29T17:37:42Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== To cite BIRD System, please use the following publication; 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. "Conception of the BIRD System" is preparing for ..... 5. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 4bcb1d2f14567c6943dc8291f7ebf149e811ce8e 2699 2698 2010-01-29T17:54:39Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. "Conception of the BIRD System" is preparing for ..... 5. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] ca47479602e76e2060c1efd8b75e783a4482cf0b 2700 2699 2010-01-29T17:59:11Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. "Conception of the BIRD System" is preparing for ..... 8. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 7b86e963e6b5c8ab7b40b272bb3a0199d9e5ed50 R 0 1320 2701 2669 2010-02-11T17:23:26Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR nov 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the [[BioInfoClub]] * There is also a [http://www.mnhn.fr/semin-r/ French User Group] 0c9decfb8514e8111002f2e505b991f6eafe190b 2708 2701 2010-02-15T11:06:58Z Wraff 5 /* Mailing Lists */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR nov 09).<br> L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH. Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC [[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] 5b03c8edbd0993c35823bba1c5ca22c3b8bd381d 2709 2708 2010-02-15T11:13:11Z Wraff 5 wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR nov 09).<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >150 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] 5c3385de6d69144ce39f7679c54b5618652620d9 BioInfoClub 0 1422 2702 2010-02-11T17:29:40Z Wraff 5 New page: Bioinformatics journal club at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements p... wikitext text/x-wiki Bioinformatics journal club at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements please sign in to the mailing list : Send a message To/Pour : sympa@bess.u-strasbg.fr Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname In case of problems you may contact wraff (at) igbmc.fr Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of R, conferences, etc) a562563efd428409fc1d8782552d51c1e1db657a 2703 2702 2010-02-11T17:30:25Z Wraff 5 wikitext text/x-wiki Bioinformatics journal club at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements please sign in to the mailing list : Send a message To/Pour : sympa@bess.u-strasbg.fr Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname In case of problems you may contact wraff (at) igbmc.fr Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of R, conferences, etc) f8fb6b852ea0b7225c17fc04a583b93e729ab8f6 2704 2703 2010-02-11T17:30:43Z Wraff 5 wikitext text/x-wiki Bioinformatics journal club at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements please sign in to the mailing list : Send a message To/Pour : sympa@bess.u-strasbg.fr Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname In case of problems with the mailing list you may contact wraff (at) igbmc.fr Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of R, conferences, etc) d998d3bc1ebb619a9e42de62b294d1c3215cd26b 2705 2704 2010-02-11T17:31:06Z Wraff 5 wikitext text/x-wiki Bioinformatics journal club at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements please sign in to the mailing list : Send a message To/Pour : sympa@bess.u-strasbg.fr Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname In case of problems with the mailing list you may contact wraff (at) igbmc.fr Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R]], conferences, etc) 877218a94f6a38ffc23790a3395e2ab862133bac 2706 2705 2010-02-11T17:31:28Z Wraff 5 wikitext text/x-wiki Bioinformatics journal club at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements please sign in to the mailing list : Send a message To/Pour : sympa@bess.u-strasbg.fr Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname In case of problems with the mailing list you may contact wraff (at) igbmc.fr Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R on our servers]], conferences, etc) c7d210d18ecbbf943a32af7623dd69dad259ba89 2707 2706 2010-02-11T17:31:52Z Wraff 5 wikitext text/x-wiki Bioinformatics journal club at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements please sign in to the mailing list : Send a message To/Pour : sympa@bess.u-strasbg.fr Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname In case of problems with the mailing list you may contact wraff (at) igbmc.fr Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R]] on our servers, conferences, etc) f7438711f798e683006d31f62ff3d33280d7770f 2710 2707 2010-02-15T11:14:29Z Wraff 5 wikitext text/x-wiki Bioinformatics journal club at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements please sign in to the mailing list : Send a message To/Pour : sympa@bess.u-strasbg.fr Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname In case of problems with the mailing list you may contact [[Wolfgang_Raffelsberger|Wolfgang]] Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R]] on our servers, conferences, etc) 992112115469674f30e842cb6f0e6bda357b1930 2712 2710 2010-02-17T10:37:35Z Wraff 5 wikitext text/x-wiki Bioinformatics journal club mailing list at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements please '''sign in''' to the mailing list : Send a message<br> To/Pour : sympa@bess.u-strasbg.fr<br> Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname<br> In case of problems with the mailing list you may contact [[Wolfgang_Raffelsberger|Wolfgang]] Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R]] on our servers, conferences, etc) f8baf16da42ca2e5f1fac209f0b549740c25d7e9 2713 2712 2010-02-17T10:41:15Z Wraff 5 wikitext text/x-wiki Bioinformatics journal club mailing list at the IGBMC The '''BioInfoClub''' meets once a month to discuss a recent important publication in the field. This takes place every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements please '''sign in''' to the mailing list :<br> Send a message<br> To/Pour : sympa@bess.u-strasbg.fr<br> Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname<br> In case of problems with the mailing list you may contact [[Wolfgang_Raffelsberger|Wolfgang]] Furthemore, the BioInfoClub mailing list allows to '''distribute other related information''' (eg updates on the installation of [[R]] on our servers, meetings & conferences, etc) 462495e909029bd20697ef2a6a88399ea7f7a4f9 Wolfgang Raffelsberger 0 1339 2711 2484 2010-02-15T11:15:19Z Wraff 5 wikitext text/x-wiki Bonjour, e-mail : wolfgang.raffelsberger (at) igbmc.fr please see my site / voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff] I am member of the BioInformatique et Génomique Intégratives ([[LBGI]]), Department of Structural Biology and Genomics ([[DBGS]], CNRS UMR7104), at the Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]). <br> Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives ([[LBGI]]), du Départment de Biologie et Génomique Structurales ([[DBGS]]), de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]). <br> General Research Interest : Bioanalysis, BioInformatics, Biostatistics <br> Specialization : Transcriptomics, CGH, Functional Genomics, Data Mining bbd34635d4c1425b307afb324bdb604062ef87d3 Fed 0 1286 2714 2655 2010-03-15T14:25:55Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** Datafiles can be uploaded in Galleries of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database * [[Gallery]] ** The Galleries are organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. * [[Datafile]] ** a Datafile is a file which was uploaded by a member. ** a Datafile has an owner. ** It can be referenced in several galleries. ** it has a visibility group called Grog which allows to define access rights * [[Grog]] ** a Grog is a group of groups, and people. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard ==FedArchitecture== voir [[FedArchitecture]] Et voici quelques outils que Raymond a rajoutés depuis ===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser. http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. 722d032a4f961b2063437627823857a656b24695 2715 2714 2010-03-16T14:16:23Z Ripp 1 wikitext text/x-wiki '''Fed''' : '''Fe'''derating '''d'''ata &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; by [[Guillaume Berthommier]] and [[Raymond Ripp]] ==What is Fed== Fed consits of * a PHP based website using Html and Javascript * a PostgreSQL Relational Database It allows to manage (see more with [[Fed Web Architecture]]) * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** Datafiles can be uploaded in Galleries of documents ** or fully integrated in the Relational Database * '''Thematics''' (or Projects) ** corresponding to one or several workpackages ** transversal to the whole database * [[Gallery]] ** The Galleries are organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries. * [[Datafile]] ** a Datafile is a file which was uploaded by a member. ** a Datafile has an owner. ** It can be referenced in several galleries. ** it has a visibility group called Grog which allows to define access rights * [[Grog]] ** a Grog is a group of groups, and people. The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database. ==Advantages of Fed== * A unique common set of PHP programs controls all Fed instances. ** These programs are developped and maintained by Guillaume and Raymond. ** A copy of them can be used on a distant computer. * Each Fed instance has its own private look and feel and relational database as well as specific programs. ** The web site and pecific programs can also work without Fed ==Several Feds can be federated== One interesting point is that several 'independant' Fed can be federated. * only the people are known everywhere * groups of people are defined independently in each Fed. This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user. ==Projects federated with Fed== * EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database] * [[RetinoBase]] the transcriptomic database * [[GenoretGenes]] (very soon) * [[DBGS]] Département de Biologie et Génomique Structurales * [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase * [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris * [[ImAnnoWeb]] the self consistant website for [[ImAnno]] ==Installation== Guillaume a pu automatiser quelques étapes de l'installation. voir dans phpWebGB/wizard ==FedArchitecture== voir [[FedArchitecture]] Et voici quelques outils que Raymond a rajoutés depuis ===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql=== Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser. http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. 08e2ab1b50511b42489169a350d0845fe9ed6d01 FedArchitecture 0 1423 2716 2010-03-17T20:35:06Z Ripp 1 New page: Fed ... c'est gros ! Et en fait c'est ce qu'il faut pour construire un site web avec utilisateurs et toute sorte d'outils. Il y a : * Une base SQL contenant le minimum d'utilisateurs, g... wikitext text/x-wiki Fed ... c'est gros ! Et en fait c'est ce qu'il faut pour construire un site web avec utilisateurs et toute sorte d'outils. Il y a : * Une base SQL contenant le minimum d'utilisateurs, groupes, etc. * Un ensemble de programmes PHP * Une arborescence minimale du site web ==La base SQL== ==Le PHP== ===Ce qu'a fait Guilllaume=== ===Les compléments de Raymond=== ==L'arboresence minimale== fd8515868f601ccb9bc543af763e8b6b1485d827 2717 2716 2010-03-19T16:48:51Z Ripp 1 wikitext text/x-wiki Fed ... c'est gros ! Et en fait c'est ce qu'il faut pour construire un site web avec utilisateurs et toutes sortes d'outils. Il y a : * Une base SQL contenant le minimum d'utilisateurs, groupes, etc. * Un ensemble de programmes PHP * Une arborescence minimale du site web ==La base SQL== La base de données PostgreSQL permet de gérer les utilisateurs, grogs, groupes de travail dafafile ==Le site Web== ==Le PHP== ===Ce qu'a fait Guilllaume=== ===Les compléments de Raymond=== ==L'arboresence minimale== f7397fbe6052f95dda8e432e9836323b55001027 2718 2717 2010-03-19T16:49:45Z Ripp 1 Protected "[[FedArchitecture]]" [edit=autoconfirmed:move=autoconfirmed] wikitext text/x-wiki Fed ... c'est gros ! Et en fait c'est ce qu'il faut pour construire un site web avec utilisateurs et toutes sortes d'outils. Il y a : * Une base SQL contenant le minimum d'utilisateurs, groupes, etc. * Un ensemble de programmes PHP * Une arborescence minimale du site web ==La base SQL== La base de données PostgreSQL permet de gérer les utilisateurs, grogs, groupes de travail dafafile ==Le site Web== ==Le PHP== ===Ce qu'a fait Guilllaume=== ===Les compléments de Raymond=== ==L'arboresence minimale== f7397fbe6052f95dda8e432e9836323b55001027 2719 2718 2010-03-19T17:14:22Z Ripp 1 wikitext text/x-wiki [[Fed]] est, en fait, un CMS fait maison. Initialement [[Guillaume Berthommier]] et [[Raymond Ripp]] ont développé [[Genoret Database]] pour le projet européen EVI-GENORET (2005-2009). Fed n'est qu'une généralisation de ce CMS qui peut être instancié pour créer un nouveau site comme par exemple [[Gx]] (le Fed permettant de gérer [[GxDb]]), [[DBGS]] pour le [[Département de Biologie et Génomique Structurales]] de l'IGBMC, ou [[IdV]] pour l'Institut de la Vision à Paris. ==La base SQL== La base de données PostgreSQL permet de gérer les utilisateurs, groupes de travail, fichiers de données ([[Datafile]]) téléchargés par les utilisateurs, grogs (droits d'accès aux datafiles), etc. ==Le site Web== Il permet la navigation parmi les Components, Workpackages, People, Galleries, Datafiles ainsi que la création, mise à jour et parcours des projets spécifiques. === ==Le PHP== ===Ce qu'a fait Guilllaume=== ===Les compléments de Raymond=== ==L'arboresence minimale== 7d8bda8afbca3df8f2e365722422cfa914dc328f 2726 2719 2010-03-23T11:15:14Z Ripp 1 Unprotected "[[FedArchitecture]]" wikitext text/x-wiki [[Fed]] est, en fait, un CMS fait maison. Initialement [[Guillaume Berthommier]] et [[Raymond Ripp]] ont développé [[Genoret Database]] pour le projet européen EVI-GENORET (2005-2009). Fed n'est qu'une généralisation de ce CMS qui peut être instancié pour créer un nouveau site comme par exemple [[Gx]] (le Fed permettant de gérer [[GxDb]]), [[DBGS]] pour le [[Département de Biologie et Génomique Structurales]] de l'IGBMC, ou [[IdV]] pour l'Institut de la Vision à Paris. ==La base SQL== La base de données PostgreSQL permet de gérer les utilisateurs, groupes de travail, fichiers de données ([[Datafile]]) téléchargés par les utilisateurs, grogs (droits d'accès aux datafiles), etc. ==Le site Web== Il permet la navigation parmi les Components, Workpackages, People, Galleries, Datafiles ainsi que la création, mise à jour et parcours des projets spécifiques. === ==Le PHP== ===Ce qu'a fait Guilllaume=== ===Les compléments de Raymond=== ==L'arboresence minimale== 7d8bda8afbca3df8f2e365722422cfa914dc328f 2727 2726 2010-03-23T11:48:19Z Ripp 1 wikitext text/x-wiki [[Fed]] est, en fait, un CMS fait maison. Initialement [[Guillaume Berthommier]] et [[Raymond Ripp]] ont développé [[Genoret Database]] pour le projet européen EVI-GENORET (2005-2009). Fed n'est qu'une généralisation de ce CMS qui peut être instancié pour créer un nouveau site comme par exemple [[Gx]] (le Fed permettant de gérer [[GxDb]]), [[DBGS]] pour le [[Département de Biologie et Génomique Structurales]] de l'IGBMC, ou [[IdV]] pour l'Institut de la Vision à Paris. pour la suite voir [[wikilbgiprivate:Fed]] f24d35c00dceeb233eaba9a2fd8a8e92ab0c0ed5 2728 2727 2010-03-23T11:48:41Z Ripp 1 wikitext text/x-wiki [[Fed]] est, en fait, un CMS fait maison. Initialement [[Guillaume Berthommier]] et [[Raymond Ripp]] ont développé [[Genoret Database]] pour le projet européen EVI-GENORET (2005-2009). Fed n'est qu'une généralisation de ce CMS qui peut être instancié pour créer un nouveau site comme par exemple [[Gx]] (le Fed permettant de gérer [[GxDb]]), [[DBGS]] pour le [[Département de Biologie et Génomique Structurales]] de l'IGBMC, ou [[IdV]] pour l'Institut de la Vision à Paris. pour la suite voir [[wikilbgiprivate:FedArchitecture]] 3582b3293971337f6adbdaa8b477afee721ed8a5 Gx 0 1424 2720 2010-03-19T17:21:45Z Ripp 1 New page: GX est le site web permettant la création, la gestion, l'analyse et la visualisation de données de transcriptomique de [[GxDb]] (Gene eXpression DataBase du [[LBGI]]) Gx est une instanc... wikitext text/x-wiki GX est le site web permettant la création, la gestion, l'analyse et la visualisation de données de transcriptomique de [[GxDb]] (Gene eXpression DataBase du [[LBGI]]) Gx est une instance [[Fed]], le CMS maison développé par [[Guillaume Berthommier]] et [[Raymond Ripp]] 4a2d69d8814c2ab4fcaed8a72bd0b95221b088a7 Raymond Ripp 0 1334 2721 1615 2010-03-19T17:23:19Z Ripp 1 wikitext text/x-wiki Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi] Je suis Ingénieur de Recherche CNRS, membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]] ==Ma vie mon oeuvre== [http://lbgi/igbmc.fr/~ripp ma page] 4bccda68f0e8447be55db75292848bdfcbbd88ab 2729 2721 2010-03-23T11:51:16Z Ripp 1 wikitext text/x-wiki Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et mon [http://lbgi.igbmc.fr/~ripp site lbgi] Je suis Ingénieur de Recherche CNRS, membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]] 0d7261e522ab78146ff0f551b1aae4dc78658aa9 Main Page 0 1279 2722 2670 2010-03-23T11:02:55Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] . ==Progiciels== * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] ca3ab1dd7fb7f671effb971be540fabf07ddeee1 CVS 0 1317 2723 1631 2010-03-23T11:04:24Z Ripp 1 wikitext text/x-wiki CVS est maintenant remplacé par [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion] '''Concurrent Versions System''' est un système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt. Il permet également aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations. CVS est installé sur alnitak. Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr?subject=CVS%20Inscription Nicolas Gagnière]. Vous aurez un répertoire sur /cvs qui sera sous votre responsabilité pour les droits et l'arborescence de vos projets. =Voir aussi= [http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia] [http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa] [http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com] b9d6d70aee32734ab0f85d8b06442a0414a02108 StringInteractome 0 1425 2724 2010-03-23T11:10:48Z Ripp 1 New page: StringInteractome est une fonction de Gscope voir [[String]] wikitext text/x-wiki StringInteractome est une fonction de Gscope voir [[String]] 1e2d4dee0b215d89bd29e9bec2afced250eb0a27 2725 2724 2010-03-23T11:11:34Z Ripp 1 wikitext text/x-wiki StringInteractome est une fonction de Gscope qui est aussi accessible depuis PHP voir [[String]] 82c80f126d1864002ae57d4c2f6df91177ba21c2 EuroTcl 0 1403 2730 2414 2010-03-23T11:53:32Z Ripp 1 wikitext text/x-wiki The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] was held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 and June 2009. see you again in June 2010 at IGBMC ! ==Presentation from Raymond Ripp== Research in Biology is no more possible without intensive use of computers and databases. In our Laboratory of Integrative BioInformatic and Genomics (LBGI), we developped tools in Tcl/Tk allowing the analysis and management of a huge amount of heterogeneous data. This data is produced locally or by numerous worldwide bioinformatic centers. It covers various types of data such as biological sequences, from single protein or mRNA to whole genomes (3.4 GigaBases for the human genome), together with their complex features, as well as sets of experimental results or data treaments like transcriptomics data, comparison searches, multiples alignments, image processing, etc. The different types of data are stored in flat files, html pages or more or less well structured databases. Altogether this required the development of high throughput data retrieval, analysis procedures and data mining tools coupled to graphical interfaces and displays, and to specific databases and websites. After a brief description of this context, we will present our Tcl/Tk developments made since 10 years by around 15 people, including biologists and students with very often minor background in programming languages. Tcl is easy to learn and allows quick progress. 78af629ebb9af1d037b6e852c466c17217f1ff8c GxDb 0 1426 2732 2010-04-06T08:02:28Z Ripp 1 New page: GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp wikitext text/x-wiki GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp be27a016025d4f439c8709e7e56add931ff027dd BIRD 0 1313 2733 2700 2010-05-07T08:04:58Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation). All authors contributed equally to this work. 7. "Conception of the BIRD System" is preparing for ..... 8. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 2ed2ab6c9901e2d3c2a4a393477cc0f6573c67a2 2734 2733 2010-05-07T08:05:32Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation). All authors contributed equally to this work. 8. "Conception of the BIRD System" is preparing for ..... 9. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System== 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 8f6103b8b9875bd3c7552d30d79bd4e21aa91ff1 2739 2734 2010-06-23T07:38:32Z Nguyen 15 /* Powerpoint Presentations of BIRD System */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation). All authors contributed equally to this work. 8. "Conception of the BIRD System" is preparing for ..... 9. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System & SM2PH& DDC == 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.ppt] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt] 4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSM2PH_080409.ppt] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] dc548ab321869e313c973bf46f7d5655f742a935 2740 2739 2010-06-23T07:57:28Z Nguyen 15 /* Powerpoint Presentations of BIRD System & SM2PH& DDC */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation). All authors contributed equally to this work. 8. "Conception of the BIRD System" is preparing for ..... 9. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System & SM2PH& DDC == 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt] 4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSM2PH_080409.ppt] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 0620e3fd82ff45699ab25b2341cfb41a25796705 2741 2740 2010-06-23T07:59:20Z Nguyen 15 /* Powerpoint Presentations of BIRD System & SM2PH& DDC */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation). All authors contributed equally to this work. 8. "Conception of the BIRD System" is preparing for ..... 9. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System & SM2PH& DDC == 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt] 4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSM2PH_080409.ppt] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] b126795bc5d38512bb97d1ba1346ecc25bfa1160 2742 2741 2010-06-23T08:00:18Z Nguyen 15 /* Powerpoint Presentations of BIRD System & SM2PH& DDC */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation). All authors contributed equally to this work. 8. "Conception of the BIRD System" is preparing for ..... 9. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System & SM2PH& DDC == 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt] 4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRD_SM2PH_080409.ppt] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] 3f4c54021936c3dc2db1c2166e62202491ed8f2b 2747 2742 2010-08-23T08:42:15Z Nguyen 15 /* Publications */ wikitext text/x-wiki BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===Theories and Functionalities=== KDD Steps [[Image:kddstep.jpg]] KDD Tecnhique & Algorithm [[Image:algo3.jpg]] KDD Data Model & View [[Image:modelview.jpg]] ====Association rule learning==== a.'''What Is Association Rule Mining?''' Describing association relationships among the attributes in the set of relevant data Frequent pattern mining: find all frequent patterns in a database Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93] Frequent pattern mining: finding regularities in data +What products were often purchased together? Beer and diapers?! +What are the subsequent purchases after buying a product( ex. car)? +Can we automatically profile patient or gene ? Example in BIRD-QL [[Image:birdqlrules.jpg]] b.'''Basic''' Rule Definition Body ==> Consequent [ Support , Confidence ] (IF <> THEN <>) Body: represents the examined data. Consequent: represents a discovered property for the examined data. Support: represents the percentage of the records satisfying the body or the consequent. Confidence: represents the percentage of the records satisfying both the body and the consequent to those satisfying only the body Itemset: a set of items =>E.g., acm={a, c, m} Support of itemsets =>Sup(acm)=3 Given min_sup=3, acm is a frequent pattern Frequent pattern mining: find all frequent patterns in a database [[Image:rulesbasic.jpg]] c.'''Apriori Algorithm''' Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=Q; k++) do Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support return UkLk; (Union) [[Image:Apriori.jpg]] ====Kohonen´s feature maps==== A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural structures where the placement of neurons is orderly and reflects the structure of external (sensed) stimuli (e.g. in auditory and visual pathways). A K-map learns, when continuous-valued input vectors are presented to it, without specifying the desired output. The weights of connections can adjust to regularities in the input. A large number of examples is needed. K-map mimics well learning in biological neural structures. It is used in speech recognizers. This is a flat (two-dimensional) structure with connections between neighbors and connections from each input node to all its output nodes. It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology). '''Learning in K-maps''' 1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes. 2. Get an input x1, …, xn. 3. Compute distance dj to each output node: dj =  (xi - wij)2 4. Select output node s with minimal distance ds. 5. Update weights for the node s and all nodes in its neighborhood: wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time. Repeat steps 2 - 5. ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community http://decrypthon.u-strasbg.fr/birdweb/ ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://asso-aria.org/coria/2008/151.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, in preparing for publication... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. All authors contributed equally to this work. Decrypthon Data Center BIRD System are developed by N.H. NGUYEN 8. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System & SM2PH& DDC == 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt] 4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRD_SM2PH_080409.ppt] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653302 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] a0c0adf0c733e4f23e6aac62e1dce475f01ee284 FedLord 0 1332 2735 1823 2010-05-15T15:32:05Z Ripp 1 wikitext text/x-wiki FedLord is the unique database centralising the [[Fed]] users of a federeation of Fed databases. If all people are centralised in this database it will be possible to share the access rights within several Fed servers. Historiquement c'est Genoret Database qui jouait le rôle de FedLord. Puis nous avons créé une FedInstance spécifique FedLord. 66f5207fb523d8b3e7db190d2b3ca2b9051eeb3a Cluspack 0 1353 2736 2558 2010-05-15T15:32:49Z Ripp 1 wikitext text/x-wiki ==Principe== Cluspack permet de lancer un clustering en k-means ou en mixture-models. Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] ==Format d'entrée== Le fichier d'entrée doit être formaté de la façon suivante : * la première ligne indique le nombre des lignes et des colonnes. * la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide ! * les lignes suivantes sont de la forme ** la première colonne des données peut contenir des identifiants ** les autres colonnes de texte, annotation etc devront se trouver à la fin ==Utilisation== En ligne de commande (avec tous les arguments) : /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc<br> or:<br> /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=kmeans -nbc=dpc -dt2 -wc<br> autres choix des parametres : <br> -cm=kmeans <br> number of clusters :<br> (mixturemodels :) -nbc=bic <br> (kMeans :) -nbc=dpc <br> density : <br> (kMeans :) -dt1 more options :<br> -dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br> -cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br> -nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br> [-dt1|-dt2][-standardization] (dt1 stands for density1) [-standardized_data][-wc] (wc stands for write_coordinates)<br> [-fd=number] (dt stands for filtering_distance)<br> [-nbsim=nbsimulations]<br> [-otfa=outputFile for alignment]<br> [-oclu=outputFile for clustering]<br> Suggestion:<br> run cluspack with nohup<br> pour utiliser le GUI cré par Adeline et Nicolas : setcluspack<br>cluspackX Il existe aussi une variante de '''clustering itérative''' en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans) /biolo/cluspack/cluspacksucc.tcl kmeans 10 181dc1875282dfc9bfdc8f0198bfd54a2bd41de8 EuroTcl 0 1403 2737 2730 2010-05-15T15:43:02Z Ripp 1 wikitext text/x-wiki The European Tcl/Tk User Meetings 2008 and 2009 see [http://www.eurotcl.org/ http://www.eurotcl.org/] were held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 and June 2009. see you again in June 4th and 5th 2010 at IGBMC ! ==Presentation from Raymond Ripp== Research in Biology is no more possible without intensive use of computers and databases. In our Laboratory of Integrative BioInformatic and Genomics (LBGI), we developped tools in Tcl/Tk allowing the analysis and management of a huge amount of heterogeneous data. This data is produced locally or by numerous worldwide bioinformatic centers. It covers various types of data such as biological sequences, from single protein or mRNA to whole genomes (3.4 GigaBases for the human genome), together with their complex features, as well as sets of experimental results or data treaments like transcriptomics data, comparison searches, multiples alignments, image processing, etc. The different types of data are stored in flat files, html pages or more or less well structured databases. Altogether this required the development of high throughput data retrieval, analysis procedures and data mining tools coupled to graphical interfaces and displays, and to specific databases and websites. After a brief description of this context, we will present our Tcl/Tk developments made since 10 years by around 15 people, including biologists and students with very often minor background in programming languages. Tcl is easy to learn and allows quick progress. 85a011f245c5db3e41da8c825465659f222bbeba Membres du LBGI 0 1333 2738 2243 2010-05-15T15:51:24Z Ripp 1 wikitext text/x-wiki Les Membres du [[LBGI]] Attention cette liste n'est peut-être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI]. * [[Laurent-Philippe Albou]] (doctorant) * [[Radhouene Aniba]] (doctorant) * [[Yannick-Noël Anno]] (doctorant) * [[Guillaume Berthommier]] (ex IE 3A CDD) (travaille maintenant dans le privé) * [[Laurent Bianchetti]] (IR2 INSERM) * [[Yann Brélivet]] (docteur) * [[Sophie Siguenza]] (IE 1B CDD) * [[Annaïck Carles]] (ex IE 3A CDD) (est maintenant à Fribourg en Allemagne) * [[Anne Friederich]] (docteur) (Maître de Conférence en Botanique Université de Strasbourg) * [[Nicolas Gagnière]] (docteur) (travaille maintenant dasn le privé) * [[User:bedez | Florence Bedez]] (docteur) (enseignante en biologie) * [[Véronique Geoffroy]] (IE 3A GIE) * [[User:Dkieffer | David Kieffer]] (docteur) (travaille maintenant dans le privé) * [[Odile Lecompte]] (MC2 ULP) * [[Luc Moulinier]] (IE2 CNRS) * [[Ngoc-Hoan Nguyen]] (post doc) * [[Frédéric Plewniak]] (IR2 CNRS) * [[Emmanuel Perrodou]] (post doc) (travaille maintenant dans le privé) * [[Olivier Poch]] (DR2 CNRS) * [[Laëtitia Poidevin]] (IE CDD) * [[Wolfgang Raffelsberger]] (IR2) * [[Ravikiran Reddy]] (docteur) (est en UK ou USA ...) * [[Raymond Ripp]] (IR1 CNRS) * [[Jean-Claude Thierry]] (DR1 CNRS) * [[Julie Thompson]] (IE2 CNRS) * [[Nicolas Wicker]] (MC2 ULP) a99bfe3c8b4e896a01f2af374e0709e71e864127 R 0 1320 2743 2709 2010-07-08T09:14:08Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >150 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] b63c28c19dd30d3fdfc6fe1264018473127e82a9 2744 2743 2010-07-08T09:14:30Z Wraff 5 /* Librairies */ wikitext text/x-wiki R est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] 5518509b9ed8e8e4fadfce89d02fe4666e89d0e1 2745 2744 2010-07-08T09:16:34Z Wraff 5 wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel pour les statistiques =Comment le lancer?= ==R sur Serveur== La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] 5d00677a259cdae804c47807b332f2a7576203cf 2746 2745 2010-07-08T09:18:21Z Wraff 5 wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] b057f4c01fdd28b335502fea6c1a2bc0023249a2 2769 2746 2010-10-01T08:23:10Z Wraff 5 /* Librairies développées en collaboration avec le LBGI */ wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] c04070157abb42d2b12544059f89cb8f0814d52d 2770 2769 2010-10-01T08:23:22Z Wraff 5 /* Librairies développées en collaboration avec le LBGI */ wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br> Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br> Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br> ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] 400a3269c8aced6b6b4aa399efeeeeedb12ecda2 RReportGenerator English 0 1366 2748 2367 2010-08-25T09:37:29Z Ripp 1 wikitext text/x-wiki [http://lbgi.igbmc.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI) or an interative web page [[RReportGenerator on the Web]] <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks. Reference: <br>The program is published and accessible as open access : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br> RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278] Limitations:<br> The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases. In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br> Physical/compoutatinal limitations:<br> Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development. <br>... voir cette page en Francais : [[RReportGenerator]] 301c8b26de45a7b404bd759456532d819cdb6452 2781 2748 2010-11-03T09:46:24Z Wraff 5 wikitext text/x-wiki [http://lbgi.igbmc.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI) or an interative web page [[RReportGenerator on the Web]] <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] <br> Besides, we're also developing a web-version [RReportGenerator_on_the_Web] allowing to run calculations on our serveurs. Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks. Reference: <br>The program is published and accessible as open access : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br> RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278] Limitations:<br> The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases. In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br> Physical/compoutatinal limitations:<br> Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development. <br>... voir cette page en Francais : [[RReportGenerator]] d5517cd2db13d97a43c618dc602f75fa32ccd919 2782 2781 2010-11-03T09:46:56Z Wraff 5 wikitext text/x-wiki [http://lbgi.igbmc.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI) or an interative web page [[RReportGenerator on the Web]] <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] <br> Besides, we're also developing a web-version [RReportGenerator_on_the_Web] allowing to run calculations on our serveurs. Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks. Reference: <br>The program is published and accessible as open access : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br> RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278] Limitations:<br> The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases. In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br> Physical/compoutatinal limitations:<br> Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development. <br>... voir cette page en Francais : [[RReportGenerator]] 28d7094325beec78ae407a64697225dd686b2f92 RReportGenerator on the Web 0 1427 2749 2010-08-25T09:42:36Z Ripp 1 New page: [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==Installation== The main tcl program rrg... wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==Installation== The main tcl program rrg.tcl remains nearly unchanged, it 5f5d7dcf55d91b338d09caa5ad629c1c20031a03 2750 2749 2010-08-25T12:33:46Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==Installation== The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' withfollowing lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * We should find a better way to test if it concerns http ... * If no web '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. ===Where are the files located?=== The rrg.tcl has to be in a directory accessible by the web server. 5db6779d6d67f0449358847b15477837dae98601 2751 2750 2010-08-25T14:57:49Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RreportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif ## access to R, latex and pdflatex ==Where have the files to be located== * '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in the same directory accessible by the web server (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a sub directory called Web which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) 957487eb42c0e08e656c502f33deade53da52422 2752 2751 2010-08-25T16:32:09Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RreportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif ## access to R, latex and pdflatex ==Where have the files to be located== * '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in the same directory accessible by the web server (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) b5da465fd6125585825f5410c96005c6ecc82e3c 2753 2752 2010-08-26T08:04:21Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RreportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif ## access to R, latex and pdflatex ==Where have the files to be located== * we need a directory accessible by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.php in ''rreportgenerator'' with a redirection to rrg.tcl ** or do it in the apache configuration 16239f2adb0c886a586a87c156b9c405b7e8d0b2 2754 2753 2010-08-26T08:12:01Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RreportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif ## access to R, latex and pdflatex ==Where have the files to be located== * we need a directory accessible by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.php in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=http://lbgi.igbmc.fr/rreportgenerator/rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ** or do it in the apache configuration 79ac7d87fb4752f576616e6a266108f5375298c0 2755 2754 2010-08-26T08:12:52Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RreportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif ## access to R, latex and pdflatex ==Where have the files to be located== * we need a directory accessible by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.php in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=http://http_server.fr/rreportgenerator/rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ** or do it in the apache configuration a4d0a938463a01f2938832757fe2f05cc9183285 2772 2755 2010-11-02T11:07:13Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RreportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif ## access to R, latex and pdflatex ==Where have the files to be located== * we need a directory accessible by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ** or do it in the apache configuration c5b26e1e6d6bc0c32857d4fc94815c7a98d77d88 2773 2772 2010-11-02T11:10:27Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RreportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif ## access to R, latex and pdflatex ==Where have the files to be located== * we need a '''directory accessible''' by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ** or do it in the apache configuration f29944fc7344d735ab16a93dfaa5444c2b49d47e 2774 2773 2010-11-02T11:13:07Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RreportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif ## access to R, latex and pdflatex # If you are running 'not compiled scripts' you need Tcl8.5 or higher ==Where have the files to be located== * we need a '''directory accessible''' by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ** or do it in the apache configuration d36d57f5f9ad444ab570f2a8ed45918dba0a99f6 2775 2774 2010-11-02T11:14:41Z Ripp 1 wikitext text/x-wiki [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RreportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png ## access to R, latex and pdflatex # If you are running 'not compiled scripts' you need Tcl8.5 or higher ==Where have the files to be located== * we need a '''directory accessible''' by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ** or do it in the apache configuration e72d275cbfa6fc0efe31f1a965194b05e5e620c1 2776 2775 2010-11-03T09:40:51Z Wraff 5 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RReportGenerator on the Web you need== # A http web server (we use Apache) # An already installed RReportGenerator ## with the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png ## access to R, latex and pdflatex # If you are running 'not compiled scripts' you need Tcl8.5 or higher ==Where have the files to be located== * we need a '''directory accessible''' by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ** or do it in the apache configuration 0c9e71ebd1740ce8e846e495073fc8dcf7658110 Gscope 0 1287 2756 2623 2010-08-26T15:53:25Z Ripp 1 wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope gscope -project YouProject puts Command arg1 arg2 arg3 and if you are shure not to use Tk gscope -project YouProject -notk puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] bf2511ead81139955fb0c298a1c5d5f12af31091 2757 2756 2010-08-26T15:54:54Z Ripp 1 wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] bb3d5100b38c6a9880d4d0e29d159dde9e6437db Blast On Gscope Project 0 1428 2758 2010-09-06T15:28:06Z Ripp 1 New page: Each Gscope Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project. The owner of the project can create as many blast data... wikitext text/x-wiki Each Gscope Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project. The owner of the project can create as many blast database as he wants. How to create a blast database (for example all proteins) cd $RepertoireDuGenome/prottfa cat * > $RepertoireDuGenome/banques/AllProttfa cd $RepertoireDuGenome/banques formatdb -i AllProttfa -p T this can be done by gscope CreeUneBanqueBlast AllProttfa Attention ! if somebody uses Wscope (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...) 3c676009f14615824517dab22d9b51c8a5b2ea19 2759 2758 2010-09-06T15:33:38Z Ripp 1 wikitext text/x-wiki Blast Database of a Gscope Project ==How to create it== Each Gscope Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project. The owner of the project can create as many blast database as he wants. How to create a blast database (for example all proteins) cd $RepertoireDuGenome/prottfa cat * > $RepertoireDuGenome/banques/AllProttfa cd $RepertoireDuGenome/banques formatdb -i AllProttfa -p T this can be done by gscope CreeUneBanqueBlast AllProttfa Attention ! if somebody uses Wscope (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...) ==How to use it== blastall -p blasp -i YourInputFasta.tfa -o YourOutputFile.blast -d $RepertoireDuGenome/banques/AllProttfa and ... on the web the fromular appears whern you do a search. ==Database not available== If you are on the web and no database appears, please ask the owner of the database to create it, or mail to Raymond. 41474975f93895a5fc6cd72519a5d7ae8334e648 2760 2759 2010-09-06T15:35:23Z Ripp 1 wikitext text/x-wiki Blast Database of a Gscope Project ==How to create it== Each Gscope Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project. The owner of the project can create as many blast database as he wants. How to create a blast database (for example all proteins) cd $RepertoireDuGenome/prottfa cat * > $RepertoireDuGenome/banques/AllProttfa cd $RepertoireDuGenome/banques formatdb -i AllProttfa -p T this can be done by gscope CreeUneBanqueBlast AllProttfa Attention ! if somebody uses Wscope (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...) ==How to use it== blastall -p blasp -i YourInputFasta.tfa -o YourOutputFile.blast -d $RepertoireDuGenome/banques/AllProttfa and ... on the web, the fommular appears whern you do a search. http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS&RechercheMoi ==Database not available== If you are on the web and no database appears, please ask the owner of the database to create it, or mail to Raymond. d93ebd4f03bfcced1a44ede7a0bda1cd69a57c5e 2761 2760 2010-09-06T15:36:13Z Ripp 1 wikitext text/x-wiki Blast Database of a Gscope Project ==How to create it== Each [[Gscope]] Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project. The owner of the project can create as many blast database as he wants. How to create a blast database (for example all proteins) cd $RepertoireDuGenome/prottfa cat * > $RepertoireDuGenome/banques/AllProttfa cd $RepertoireDuGenome/banques formatdb -i AllProttfa -p T this can be done by gscope CreeUneBanqueBlast AllProttfa Attention ! if somebody uses [[Wscope]] (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...) ==How to use it== blastall -p blasp -i YourInputFasta.tfa -o YourOutputFile.blast -d $RepertoireDuGenome/banques/AllProttfa and ... on the web, the fommular appears whern you do a search. http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS&RechercheMoi ==Database not available== If you are on the web and no database appears, please ask the owner of the database to create it, or mail to Raymond. 506ec95e9988cafde62c3d15886df9a659d1bab7 2762 2761 2010-09-09T09:32:47Z Ripp 1 wikitext text/x-wiki Blast Database of a Gscope Project ==How to create it== Each [[Gscope]] Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project. The owner of the project can create as many blast database as he wants. How to create a blast database (for example all proteins) cd $RepertoireDuGenome/prottfa cat * > $RepertoireDuGenome/banques/AllProttfa cd $RepertoireDuGenome/banques formatdb -i AllProttfa -p T this can be done by gscope CreeUneBanqueBlast AllProttfa Attention ! if somebody uses [[Wscope]] (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...) ==How to use it== blastall -p blasp -i YourInputFasta.tfa -o YourOutputFile.blast -d $RepertoireDuGenome/banques/AllProttfa and ... on the web, the fommular appears when you do a search. http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS&RechercheMoi ==Database not available== If you are on the web and no database appears, please ask the owner of the database to create it, or mail to Raymond. 18b3a0e33fae464d7a8f1600303b636c8698d17c Wscope 0 1429 2763 2010-09-09T09:53:43Z Ripp 1 New page: Wscope is the web interface of [[Gscope]] It runs as cgi-bin and has access to almost all procedures of Gscope http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 ... wikitext text/x-wiki Wscope is the web interface of [[Gscope]] It runs as cgi-bin and has access to almost all procedures of Gscope http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files fromdirectory fiches (FicheMoi) * 82faf7140a1de6ae40996f161ae103979ed6df33 2764 2763 2010-09-09T10:04:33Z Ripp 1 wikitext text/x-wiki Wscope is the web interface of [[Gscope]] It runs as cgi-bin and has access to almost all procedures of Gscope http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files fromdirectory fiches (FicheMoi) ==GuideMoi== The most common possible actions are listed BUT The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc) <source lang=tcl> #put here the link and the text todispaly (separated by as many tabulations as you want, at least 1) # line starting with # are skiped # empty link and/or text are allowed #Link Texte [LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature [WscopeScience]&Signal All Signals [WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos ) [WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes [WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics [WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits [WscopeScience]&AffichePof&AllPs All existing oligos [WscopeScience]&AfficheVirtualPPCR All PCR products [WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR) [WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST) [WscopeScience]&SpineSummaryOnWeb Spine Targets Summary [WscopeScience]&OliWeb Order oligos (not yet available) </source> ==FileMoi== As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui]) <source lang=tcl> #rR WscopeLinksFileMoi.txt #Ref Text [WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b> [WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b> [WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b> [LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage </source> 563043f49ec9c794f7533b68fe43a7a99a3bc30f 2765 2764 2010-09-09T10:08:38Z Ripp 1 wikitext text/x-wiki Wscope is the web interface of [[Gscope]] It runs as cgi-bin and has access to almost all procedures of Gscope http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files fromdirectory fiches (FicheMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&RechercheMoi allow textual or blast searching (RechercheMoi) ==GuideMoi== The most common possible actions are listed BUT The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc) <source lang=tcl> #put here the link and the text todispaly (separated by as many tabulations as you want, at least 1) # line starting with # are skiped # empty link and/or text are allowed #Link Texte [LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature [WscopeScience]&Signal All Signals [WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos ) [WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes [WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics [WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits [WscopeScience]&AffichePof&AllPs All existing oligos [WscopeScience]&AfficheVirtualPPCR All PCR products [WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR) [WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST) [WscopeScience]&SpineSummaryOnWeb Spine Targets Summary [WscopeScience]&OliWeb Order oligos (not yet available) </source> ==FileMoi== As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui]) <source lang=tcl> #rR WscopeLinksFileMoi.txt #Ref Text [WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b> [WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b> [WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b> [LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage </source> ==RechercheMoi== A textual search is done in all infos/BOXxxx files The Blast search is done in the blast databases found in banques/ (see ) 4ff5df48cd25f61b251b76c66a7272bce046a2f2 2766 2765 2010-09-09T10:11:23Z Ripp 1 wikitext text/x-wiki Wscope is the web interface of [[Gscope]] It runs as cgi-bin and has access to almost all procedures of Gscope http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files from directory fiches (FicheMoi) * http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&RechercheMoi allow textual or blast searching (RechercheMoi) ==GuideMoi== The most common possible actions are listed BUT The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc) <source lang=tcl> #put here the link and the text todispaly (separated by as many tabulations as you want, at least 1) # line starting with # are skiped # empty link and/or text are allowed #Link Texte [LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature [WscopeScience]&Signal All Signals [WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos ) [WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes [WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics [WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits [WscopeScience]&AffichePof&AllPs All existing oligos [WscopeScience]&AfficheVirtualPPCR All PCR products [WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR) [WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST) [WscopeScience]&SpineSummaryOnWeb Spine Targets Summary [WscopeScience]&OliWeb Order oligos (not yet available) </source> ==FileMoi== As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui]) <source lang=tcl> #rR WscopeLinksFileMoi.txt #Ref Text [WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b> [WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b> [WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b> [LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage </source> ==RechercheMoi== A textual search is done in all infos/BOXxxx files The Blast search is done in the blast databases found in banques/ (see [[Blast On Gscope Project]]) 0a7b88da80d72011a5efd9b8657e1d59459d6c90 KEGG 0 1430 2767 2010-09-28T16:32:06Z Ripp 1 New page: voir le private Lbgiki wikitext text/x-wiki voir le private Lbgiki 617f7b2eef9d3e4c89ecea1b00f034e1735100c5 RReportGenerator 0 1342 2768 2055 2010-10-01T08:21:23Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_English]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Référence: <br>Ce programme est publié et accessible "open access" dans : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278] fc622743b3421be01a33a6cea6901b345187b2d2 2777 2768 2010-11-03T09:42:27Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_English]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] D'ailleurs nous développons aussi une version web [RReportGenerator on the Web] qui permet de réaliser des calculs sur nos serveurs de calcul. Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Référence: <br>Ce programme est publié et accessible "open access" dans : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278] 3bb81d9a1818250d7b1c4e1b2f9cbe790e54384b 2778 2777 2010-11-03T09:43:47Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_English]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] <br> D'ailleurs nous développons aussi une version web [RReportGenerator on the Web] qui permet de réaliser des calculs sur nos serveurs de calcul. Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Référence: <br>Ce programme est publié et accessible "open access" dans : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278] 6996de4d85ccadc14a45496b65312028e673ddaf 2779 2778 2010-11-03T09:44:32Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_English]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] <br> D'ailleurs nous développons aussi une version web [RReportGenerator_on_the_Web] qui permet de réaliser des calculs sur nos serveurs de calcul. Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Référence: <br>Ce programme est publié et accessible "open access" dans : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278] 660133277f745c87db544a331a652638b9f828be 2780 2779 2010-11-03T09:44:50Z Wraff 5 wikitext text/x-wiki (View this page in English : [[RReportGenerator_English]]) [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] <br> D'ailleurs nous développons aussi une version web [[RReportGenerator_on_the_Web]] qui permet de réaliser des calculs sur nos serveurs de calcul. Champs d'applications : <br> Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de : # Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes. # Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation. En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés. Référence: <br>Ce programme est publié et accessible "open access" dans : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278] b0ebfae313b7dd695f78997fcfe325982022729c CheckTsearch 0 1420 2771 2667 2010-10-15T09:12:41Z Ripp 1 wikitext text/x-wiki Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch : Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]). http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch. La colonne idxfti est créée si nécessaire. Attention la suite "Il suffit... " marche mais ... ===Concernant la database=== Ca marche si la database est la base Fed dans laquelle on est. Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php ===Il faut la fonction trigger dans le Catalog de postgresql=== Pour cela il fallait d'abord que je fasse <source lang='tcl'> CREATE OR REPLACE FUNCTION t_tsearch_trigger() RETURNS trigger AS $BODY$ set tscol [lindex $args 0] set tsconf [lindex $args 1] set nbargs [llength $args] set fullstr "" for {set i 2} {$i <= $nbargs-1} {incr i} { set col [lindex $args $i] if {![info exists NEW($col)]} {continue} spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte" append fullstr $texte " " } spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect" set NEW($tscol) $vect return [array get NEW] $BODY$ LANGUAGE 'pltcl' VOLATILE COST 100; ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp; </source> et il faut aussi définir la fonction f_replace_chars dans pg_catalog functions. <source lang='tcl'> set search_path to pg_catalog; -- Function: f_replace_chars(text) -- DROP FUNCTION f_replace_chars(text); CREATE OR REPLACE FUNCTION f_replace_chars(text) RETURNS text AS $BODY$ declare mytext alias for $1; res text; begin res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ', 'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY'); res := replace(res, 'Þ' , 'TH'); res := replace(res, 'þ' , 'th'); res := replace(res, 'Ð' , 'DH'); res := replace(res, 'ð' , 'dh'); res := replace(res, 'ß' , 'ss'); res := replace(res, '¦' , 'OE'); res := replace(res, '¶' , 'oe'); res := replace(res, 'Æ' , 'AE'); res := replace(res, 'æ' , 'ae'); res := replace(res, 'Œ' , 'OE'); res := replace(res, 'œ' , 'oe'); res := replace(res, '©' , 'C'); res := replace(res, '®' , 'R'); res := replace(res, '¾' , '3/4'); res := replace(res, '¼' , '1/4'); res := replace(res, 'µ' , 'mu'); return res; end; $BODY$ LANGUAGE 'plpgsql' VOLATILE COST 100; ALTER FUNCTION f_replace_chars(text) OWNER TO ripp; </source> ===Attention idxfti n'est pas mis à jour s'il y a déjà des données=== Il faut faire, pour toutes les tables t, colonnes c. update t set c=c d270ad3b8a460c85b171d385b93d415cff6764ec RReportGenerator English 0 1366 2783 2782 2010-11-03T11:45:37Z Wraff 5 wikitext text/x-wiki [http://lbgi.igbmc.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI) or an interative web page [[RReportGenerator on the Web]] <br> While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis. The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] <br> Besides, we're also developing a web-version [[RReportGenerator_on_the_Web]] allowing to run calculations on separate serveurs. Applications : <br> Predefined analysis-scenarios for automatic analysis have been developed for the following areas : # Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]). # Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results. # Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate. Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios. In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks. Reference: <br>The program is published and accessible as open access : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br> RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278] Limitations:<br> The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases. In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br> Physical/compoutatinal limitations:<br> Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development. <br>... voir cette page en Francais : [[RReportGenerator]] f536ffa2c16d08c99d9a38cfc305998927f17218 RReportGenerator on the Web 0 1427 2784 2776 2010-11-10T09:00:04Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RReportGenerator on the Web you need== # A http web server (we use Apache) # The RReportGenerator with ## the files rrg.tcl and rrg_web.tcl or their binary version ## the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png # Access to R, latex and pdflatex (they have to be in the binary path so we can find them with ''which R'' , ''which latex'' and ''which pdflatex'') # If you are running 'not compiled scripts' you need Tcl8.5 or higher ==Where have the files to be located== * we need a '''directory accessible''' by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ** or do it in the apache configuration 1db6c2e3ca2631bc2a0f03f610b55793a99a0fc1 2785 2784 2010-11-10T09:21:38Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RReportGenerator on the Web you need== # A http web server (we use Apache) # The RReportGenerator with ** the files rrg.tcl and rrg_web.tcl or their binary version ** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png # Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles # If you are running 'not compiled scripts' you need Tcl8.5 or higher ==Where have the files to be located== * we need a '''directory accessible''' by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ** or do it in the apache configuration 339c5816bdb61228b6ae0a4195b81f447a4e5c14 2786 2785 2010-11-10T09:23:05Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * The RReportGenerator with ** the files rrg.tcl and rrg_web.tcl or their binary version ** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * If you are running 'not compiled scripts' you need Tcl8.5 or higher ==Where have the files to be located== * we need a '''directory accessible''' by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; a78be0a9bad1e3bb521c7ed5cbc3c91c84f736d5 2787 2786 2010-11-16T17:43:26Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= '''A COMPILED VERSION WITH AN INSTALLATION WIZARD WILL BE AVAILABLE VERY SOON''' rest is obsolete ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * The RReportGenerator with ** the files rrg.tcl and rrg_web.tcl or their binary version ** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * If you are running 'not compiled scripts' you need Tcl8.5 or higher ==Where have the files to be located== * we need a '''directory accessible''' by the web server. We call it ''rreportgenerator'' * '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * if you want to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; cd4c559b7e4ce21f56b1f7e558d29368a2e3f0e9 2790 2787 2010-11-18T09:22:33Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * The compiled RReportGenerator distribution rrg.tgz which contains ** the executable rrg.exe (=rrg.tcl + rrg_web.tcl + tcl runtime library) ** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif '''and your LocalLogo.png''' ** a directory containing Scenarios and Indata * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator wget -O rrg.tgz "http://lbgi.igbmc.fr/rreportgenerator/rrg.tgz" tar -zxvf rrg.tgz ls -l #UNcoment following lines if your want your own Web subdirectory located somewhere else #mv Web WebFromDistribution #ln -s /some/where/else/MyWeb Web </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; 5e44bf6165bbdff26e402a02863eb211b4941ddc 2791 2790 2010-11-18T09:24:20Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * The compiled RReportGenerator distribution rrg.tgz which contains ** the executable rrg.exe (=rrg.tcl + rrg_web.tcl + tcl runtime library) ** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif '''and your LocalLogo.png''' ** a directory containing Scenarios and Indata * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator wget -O rrg.tgz "http://lbgi.igbmc.fr/rreportgenerator/rrg.tgz" tar -zxvf rrg.tgz ls -l #Uncomment following lines if your want your own Web subdirectory located somewhere else #mv Web WebFromDistribution #ln -s /some/where/else/MyWeb Web </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; 84f163e9391852b5ed8567eb4a305f53a53e2068 2792 2791 2010-11-18T09:26:02Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * The compiled RReportGenerator distribution rrg.tgz which contains ** the executable rrg.exe (=rrg.tcl + rrg_web.tcl + tcl runtime library) ** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif '''and your LocalLogo.png''' ** a directory containing Scenarios and Indata * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.tgz "http://lbgi.igbmc.fr/rreportgenerator/rrg.tgz" tar -zxvf rrg.tgz ls -l #Uncomment following lines if your want your own Web subdirectory located somewhere else #mv Web WebFromDistribution #ln -s /some/where/else/MyWeb Web </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; d0a251840eb1170ba37ae8ea7be692e731c80bc8 2793 2792 2010-11-22T08:47:07Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * (We should find a better way to test if it concerns http ...) * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. =Installation= ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * The compiled RReportGenerator distribution rrg.tgz which contains ** the executable rrg.exe (=rrg.tcl + rrg_web.tcl + tcl runtime library) ** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif '''and your LocalLogo.png''' ** a directory containing Scenarios and Indata * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.tgz "http://lbgi.igbmc.fr/rreportgenerator/rrg.tgz" tar -zxvf rrg.tgz ls -l #Uncomment following lines if your want your own Web subdirectory located somewhere else #mv Web WebFromDistribution #ln -s /some/where/else/MyWeb Web </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ==Write permissions== ===For the Web version=== The user running the http server needs to have write permissions to * /var/www/rreportgenerator/Web where he creates ** /var/www/rreportgenerator/Web/web.log ** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified) ** /var/www/rreportgenerator/Web/Public ** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX'' ===For the standalone version=== When a user runs rrg.exe he creates * ~user/RRGConfiguration containing RRG_config and the temporary files * the Output files in the directory defined as ''Output Folder'' a5399464aab8d47e58cdb5b5bb102f5e205d79cf 2794 2793 2010-11-24T16:27:58Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * The '''unique file rrg.exe''' ** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata) ** At first run it extract automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.exe" </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe If this is done the first time you can even use the url http://''http_server''/''rreportgenerator'' * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * Notice : to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ==Write permissions== ===For the Web version=== The user running the http server needs to have write permissions to * /var/www/rreportgenerator/Web where he creates ** /var/www/rreportgenerator/Web/web.log ** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified) ** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX'' ===For the standalone version=== When a user runs rrg.exe he creates * ~user/RRGConfiguration containing RRG_config and the temporary files * the Output files in the directory defined as ''Output Folder'' 67eb1e0944d0485507cf7f59ae1b0b9511cc0e99 2795 2794 2010-11-24T16:28:54Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * The '''unique file rrg.exe''' ** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata) ** At first run it extract automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.exe" </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe If this is done the first time you can even use the url http://''http_server''/''rreportgenerator'' * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * Notice : to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ==Write permissions== ===For the Web version=== The user running the http server needs to have write permissions to * /var/www/rreportgenerator/Web where he creates ** /var/www/rreportgenerator/Web/web.log ** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified) ** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX'' ===For the standalone version=== When a user runs rrg.exe he creates * ~user/RRGConfiguration containing RRG_config and the temporary files * the Output files in the directory defined as ''Output Folder'' =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. eb3182f7d601e4743120b0ea844aef378d6b7366 2796 2795 2010-11-24T16:30:27Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * The '''unique file rrg.exe''' ** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata) ** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.exe" </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe If this is done you can even use the url http://''http_server''/''rreportgenerator'' * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * Notice : to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ==Write permissions== ===For the Web version=== The user running the http server needs to have write permissions to * /var/www/rreportgenerator/Web where he creates ** /var/www/rreportgenerator/Web/web.log ** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified) ** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX'' ===For the standalone version=== When a user runs rrg.exe he creates * ~user/RRGConfiguration containing RRG_config and the temporary files * the Output files in the directory defined as ''Output Folder'' =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. 4a93d174aac1fc9c4d2aa7c78f664b0b516de26e 2797 2796 2010-11-25T08:52:31Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * The '''unique file rrg.exe''' ** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata) ** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib" # please use the '''.distrib''' extension (it's the stable version) </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe If this is done you can even use the url http://''http_server''/''rreportgenerator'' * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * Notice : to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ==Write permissions== ===For the Web version=== The user running the http server needs to have write permissions to * /var/www/rreportgenerator/Web where he creates ** /var/www/rreportgenerator/Web/web.log ** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified) ** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX'' ===For the standalone version=== When a user runs rrg.exe he creates * ~user/RRGConfiguration containing RRG_config and the temporary files * the Output files in the directory defined as ''Output Folder'' =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. ae44faab551a17d93996c842c67f1429f95e3b71 2798 2797 2010-11-25T08:55:28Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * The '''unique file rrg.exe''' ** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata) ** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib" # please use the '.distrib' extension (it's the stable version) </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe If this is done you can even use the url http://''http_server''/''rreportgenerator'' * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * Notice : to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ==Write permissions== ===For the Web version=== The user running the http server needs to have write permissions to * /var/www/rreportgenerator/Web where he creates ** /var/www/rreportgenerator/Web/web.log ** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified) ** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX'' ===For the standalone version=== When a user runs rrg.exe he creates * ~user/RRGConfiguration containing RRG_config and the temporary files * the Output files in the directory defined as ''Output Folder'' =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. 064fdd1c33c398895d3890aef39a09a7ace69666 2799 2798 2010-11-25T13:37:36Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * The '''unique file rrg.exe''' ** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata) ** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib" # please notice the '.distrib' extension (it's the stable version, and the .exe version might be forbidden by the firewalls) </source> * '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe If this is done you can even use the url http://''http_server''/''rreportgenerator'' * To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe * Notice : to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ==Write permissions== ===For the Web version=== The user running the http server needs to have write permissions to * /var/www/rreportgenerator/Web where he creates ** /var/www/rreportgenerator/Web/web.log ** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified) ** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX'' ===For the standalone version=== When a user runs rrg.exe he creates * ~user/RRGConfiguration containing RRG_config and the temporary files * the Output files in the directory defined as ''Output Folder'' =How it works= The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. 1f7e14cb9ff3fdd06f828a3a24810aa94d82f7f0 2800 2799 2010-12-13T15:01:08Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * The '''unique file rrg.tcl''' (it's not the source file but the compiled file !!!) ** It contains all what you need (=rrg_main.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata) ** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.tcl "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib" # please notice the '.distrib' extension (it's the stable version, and the .exe version might be forbidden by the firewalls) </source> * '''rrg.tcl''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl If this is done you can even use the url http://''http_server''/''rreportgenerator'' * To allow the execution of the rrg.tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * Notice : to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ==Write permissions== ===For the Web version=== The user running the http server needs to have write permissions to * /var/www/rreportgenerator/Web where he creates ** /var/www/rreportgenerator/Web/web.log ** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified) ** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX'' ===For the standalone version=== When a user runs rrg.tcl he creates * ~user/RRGConfiguration containing RRG_config and the temporary files * the Output files in the directory defined as ''Output Folder'' =How it works= The main tcl program '''rrg_main.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * If launched as local program, '''rrg_main.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. 2f4751490b69104a7303785d93fb2c326e2c5570 2801 2800 2010-12-13T15:02:19Z Ripp 1 wikitext text/x-wiki While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface. This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==To run RReportGenerator on the Web you need== * A http web server (we use Apache) * Access to R, latex and pdflatex ** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex'' ** for Windows we search in the directory defined as the environment variable ProgramFiles * The '''unique file rrg.tcl''' (it's not the source file but the compiled file !!!) ** It contains all what you need (=rrg_main.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata) ** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored ==Installation on Linux== * we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator'' <source lang='bash'> #suppose www-data is the user running the web server sudo su - www-data cd /var/www mv rreportgenerator rreportgenerator.OLD mkdir rreportgenerator cd rreportgenerator wget -O rrg.tcl "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib" # please notice the '.distrib' extension (it's the stable version) </source> * '''rrg.tcl''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it) * the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere) We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl If this is done you can even use the url http://''http_server''/''rreportgenerator'' * To allow the execution of the rrg.tcl as cgi-bin you need following line in the apache configuration file ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl * Notice : to allow the url http://''http_server''/''rreportgenerator'' ** do it in the apache configuration or ... ** use the file index.html in ''rreportgenerator'' with the redirection to rrg.tcl &lt;!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"&gt; &lt;html&gt; &lt;head&gt; &lt;meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm"&gt; &lt;/head&gt; &lt;/html&gt; ==Write permissions== ===For the Web version=== The user running the http server needs to have write permissions to * /var/www/rreportgenerator/Web where he creates ** /var/www/rreportgenerator/Web/web.log ** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified) ** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX'' ===For the standalone version=== When a user runs rrg.tcl he creates * ~user/RRGConfiguration containing RRG_config and the temporary files * the Output files in the directory defined as ''Output Folder'' =How it works= The main tcl program '''rrg_main.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines : <source lang="tcl"> global env if {! [info exists env(QUERY_STRING)] && $argv=={}} { package require Tk main } else { source "[file dirname [info script]]/rrg_web.tcl" MainWeb } </source> * If launched as local program, '''rrg_main.tcl''' requires the package Tk and runs normally * If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser. * Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables. * The user can switch between existing projects (if he knows the password) or create a new project. * Within a project he can select, delete or create scenarios and input files. * After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project. * These output files can be shown, downloaded and deleted by any user knowing the password of the project. 819d1de82c30269be1d879ffdf898556a42cea8c String 0 1421 2788 2731 2010-11-16T18:39:05Z Ripp 1 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est 'SameAsFile' (tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?StringInteractome&/genomics/link/toto/genes.lst&SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 294a9e797ffe4426f4b2e23717c4bc299a39096d 2789 2788 2010-11-16T18:44:31Z Ripp 1 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond c8cc1e6e6bbda5eaf746aee4f55a7c347ee59201 2804 2789 2011-02-02T16:16:09Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); * par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString] ** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 96cc2ac98ef60d12c0f2096ce12dadf76077710f 2805 2804 2011-02-03T14:13:29Z Poidevin 11 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 64c9c51c03ad00b354ff8443cb09d91d9dc6fa94 Instruct Bioinformatics 0 1431 2802 2010-12-20T17:36:35Z Ripp 1 New page: Instruct Strasbourg Core Center Bioinformatics See the [http://dbgs.igbmc.fr/dbgs/Instruct Instruct Strasbourg Core Center WebSite] wikitext text/x-wiki Instruct Strasbourg Core Center Bioinformatics See the [http://dbgs.igbmc.fr/dbgs/Instruct Instruct Strasbourg Core Center WebSite] d27737356e3e2ed8f713a416d2b1bf31d9521e35 Café des sciences 0 1322 2803 2426 2010-12-26T17:29:47Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ 8e3ec4cda30e8aed3752220b9cb9afb20be13bb4 2821 2803 2011-08-17T08:03:08Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ e4a3e3aa1f730efb6500953c62a2bddfd712f4a6 Gscope Procedures 0 1418 2806 2693 2011-02-23T15:10:29Z Poidevin 11 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id] </source> 7f1a8e1ea419328dccd9f2ecf98d4ebf96581cea 2807 2806 2011-02-23T15:11:34Z Poidevin 11 /* proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar} */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 06017cc576bf61ca9434391acdda4109388d41a7 2810 2807 2011-04-06T12:17:26Z Ripp 1 /* proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar} */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene itsGOs} {gene itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 57259efc5df7d7f7ce577fde8d9ba4e7b90c8798 2811 2810 2011-04-06T12:19:43Z Ripp 1 /* proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}} */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> a5e5d9f2a18b22feaab76e866e149ba84654186f BIRDQL 0 1395 2808 2570 2011-03-31T08:45:40Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] bf3de38fafd1a67e5e25a8b40ed8cc8c7fbb1b91 2829 2808 2011-12-12T14:09:53Z Nguyen 15 /* BIRDQL Grammar */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': rmining in EVI Genoret Database ID * DB EVImm WH text CONTAINS "retina" FD GET_COUNT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM CSV // ID * DB EVImm WH text CONTAINS "retina" LM 10 FD NOM,VALIDEPROT FM FLAT // ID * DB EVImm WH text CONTAINS "retina" & "chr6:127091327-127116667" LM 10 FM XML '''Example 8''': running SQL Native (authorized user) ID * DB STRING WH SQLNATIVE select * from items.proteins Limit 100 FM CSV '''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user) ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' LM 500 FM CSV ==> results GSM1|GTGAAACCCC|63 GSM2|GTGAAACCCC|76 GSM571|GTGAAACCCC|13 GSM572|GTGAAACCCC|395 GSM573|GTGAAACCCC|359 GSM574|GTGAAACCCC|286 GSM668|GTGAAACCCC|132 GSM669|GTGAAACCCC|129 GSM670|GTGAAACCCC|112 // ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT // ID * DB MYGEO WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3 LM 1000 FM CSV '''Example 10''': Association rules (authorized user) ID * DB protein_interaction WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90)) FD ID,Rules FM FLAT '''Example 11''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] ea137bd8a5935fa234b526d35e021ad0a340632a 2830 2829 2011-12-12T14:48:57Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52] Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. '''Example 9''': DBSNP '''Example 9.1''': get DBSNP with XML format ID 268 DB DBSNP '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example 9.3''': find snp by position and reference sequence (GRCh37.p2) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i") FM FLAT // [[Category:Bird_project]] 79200fba972f641e289505505cf8c29101efcb1e BIRD Data Access Protocol 0 1396 2809 2575 2011-03-31T11:55:19Z Nguyen 15 /* Data Browsing at Décrypthon Data Center */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Database federation=== Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version) ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 47791db2db6620afddc3ebccd041522f044ee0da 2827 2809 2011-12-12T14:04:31Z Nguyen 15 /* Data Browsing at Décrypthon Database federation */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: [http://decrypthon.u-strasbg.fr/birdweb/] ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] e3def7bcbe175ea51e74f807ef6f308eb8d68bb6 2828 2827 2011-12-12T14:05:04Z Nguyen 15 /* WEB Server */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source> # <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: in construction ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 8cb104c77b82a35fdbd838a50b3bccf2a2d2368d Main Page 0 1279 2812 2722 2011-04-26T10:45:10Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] . ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 18c107d02a60a2122fad68f7ee4fe0086889739a 2817 2812 2011-05-24T14:56:35Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] . ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 0357461d94a51af7685f7b0a59b3a61f436c6080 Quel outil utilise quel outil 0 1432 2813 2011-04-26T10:45:23Z Ripp 1 New page: * Gscope uses PipeAlign requires BIRD * PipeAlign requires Blast uses Ballast requires DbClustal uses Rascal uses Leon requires Cluspack requires Macsims * Macsims requires BIRD * Blast re... wikitext text/x-wiki * Gscope uses PipeAlign requires BIRD * PipeAlign requires Blast uses Ballast requires DbClustal uses Rascal uses Leon requires Cluspack requires Macsims * Macsims requires BIRD * Blast requires BlastDatabases requires ballast * DbClustal requires BIRD uses Cluspack *Cluspack require R-library {| class="wikitable" style="text-align:center; width:80%;" |+ Quel outil utilise quel outil |- | ! scope=col | PipeAlign ! scope=col | Blast ! scope=col | Ballast ! scope=col | DbClustal ! scope=col | Rascal ! scope=col | Leon ! scope=col | Cluspack ! scope=col | Macsims |- ! scope=row | PipeAlign | |requires |if av |requires |if av |if av |requires |requires |- ! scope=row | Blast |- ! scope=row |Ballast |- ! scope=row | DbClustal | | | | |- ! scope=row | Cluspack |- ! scope=row | Macsims |} 35afdf89f9b725c27389901d5990a2bb2fabf000 2814 2813 2011-04-26T12:13:54Z Ripp 1 wikitext text/x-wiki * Gscope uses PipeAlign, requires BIRD * PipeAlign requires Blast, uses Ballast, requires DbClustal uses Rascal, uses Leon, requires Cluspack, requires Macsims * Macsims requires BIRD, * Blast requires BlastDatabases, requires ballast, * DbClustal requires BIRD, uses Cluspack *Cluspack require R-library {| class="wikitable" style="text-align:center; width:80%;" |+ Quel outil utilise quel outil |- | ! scope=col | PipeAlign ! scope=col | Blast ! scope=col | Ballast ! scope=col | DbClustal ! scope=col | Rascal ! scope=col | Leon ! scope=col | Cluspack ! scope=col | Macsims |- ! scope=row | PipeAlign | |requires |if av |requires |if av |if av |requires |requires |- ! scope=row | Blast |- ! scope=row |Ballast |- ! scope=row | DbClustal | | | | |- ! scope=row | Cluspack |- ! scope=row | Macsims |} 531945499a33a97186d129addc3d8a3c77bda219 2815 2814 2011-04-26T12:14:11Z Ripp 1 wikitext text/x-wiki * Gscope uses PipeAlign, requires BIRD * PipeAlign requires Blast, uses Ballast, requires DbClustal, uses Rascal, uses Leon, requires Cluspack, requires Macsims * Macsims requires BIRD, * Blast requires BlastDatabases, requires ballast, * DbClustal requires BIRD, uses Cluspack *Cluspack require R-library {| class="wikitable" style="text-align:center; width:80%;" |+ Quel outil utilise quel outil |- | ! scope=col | PipeAlign ! scope=col | Blast ! scope=col | Ballast ! scope=col | DbClustal ! scope=col | Rascal ! scope=col | Leon ! scope=col | Cluspack ! scope=col | Macsims |- ! scope=row | PipeAlign | |requires |if av |requires |if av |if av |requires |requires |- ! scope=row | Blast |- ! scope=row |Ballast |- ! scope=row | DbClustal | | | | |- ! scope=row | Cluspack |- ! scope=row | Macsims |} 1eece9365bb5c3fcefd320a6664b03634a15856b PipeAlign 0 1433 2816 2011-04-27T14:03:08Z Ripp 1 New page: The PipeAlign is a pipe of programs allowing to create a Macsims starting with a protein sequence. it runs following programs * Blast * Ballast * DbClustal * Rascal * Leon * Cluspack * ... wikitext text/x-wiki The PipeAlign is a pipe of programs allowing to create a Macsims starting with a protein sequence. it runs following programs * Blast * Ballast * DbClustal * Rascal * Leon * Cluspack * Macsims b7b643537b4cccaeef7046fd9516e7be3eb9f644 R 0 1320 2818 2770 2011-06-01T12:22:49Z Wraff 5 wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== La version version 2.13.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br> Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() . En raison des différentes systèmes/versions Linux on commence une installation parallele, ceci facilitera aussi le maintien des anciennes versions. La version Fedora est la version par defaut et pour acceder la version Redhat il faudra demarrer avec : /biolo/R/R_star/R-2.13.0/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] 20151bebc7a125ab43e3dd07eb856255f568e09d 2819 2818 2011-06-01T12:23:41Z Wraff 5 wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== La version version 2.13.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br> Pour lancer R sur les serveurs tapez "R" , pour quitter R tappez : q() . En raison des différentes systèmes/versions Linux on commence une installation parallele, ceci facilitera aussi le maintien des anciennes versions. La version Fedora est la version par defaut et pour acceder la version Redhat il faudra demarrer avec : /biolo/R/R_star/R-2.13.0/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] 30720c00c24a08ce9ddf7bde78d40df183e842ca 2820 2819 2011-06-01T12:25:18Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== La version version 2.13.0 du logiciel R (pour calculer des statistiques) est installé pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR jun 11).<br> Pour lancer R sur les serveurs tapez "R" , pour quitter R tappez : q() . En raison des différentes systèmes/versions Linux on commence une installation parallele, ceci facilitera aussi le maintien des anciennes versions. La version Fedora est la version par defaut et pour acceder la version Redhat il faudra demarrer avec : /biolo/R/R_star/R-2.13.0/bin/R ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] 1f3e23ea6638a9c1303b6986119ab8b52fd594b2 2822 2820 2011-11-14T13:16:21Z Wraff 5 wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== Les versions R-2.13.x et 2.14.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 14 nov 11).<br> En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R/R_star/ et /biolo/R/R_surf/ .<br> Pour lancer la version la '''plus récente de R''' sur les serveurs tapez : sur les RedHat (star (6-8), starv (2-4), niko) : '''R_star''' sur les Fedora (surf) : '''R_surf''' D'ailleurs des anciennes versions sont/restent disponibles : sur les RedHat (star (6-8), starv (2-4), niko) : '''R-2.13.2_star''' sur les Fedora (surf) : '''R-2.13.1_surf''' Pour quitter R tappez : q() . ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] fdae614631e0007b8adabeef13e68fe3809876c8 2823 2822 2011-11-14T13:17:25Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== Les versions R-2.13.x et 2.14.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 14 nov 11).<br> En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R/R_star/ et /biolo/R/R_surf/ .<br> Pour lancer la version la '''plus récente de R''' sur les serveurs tapez : <br> sur les RedHat (star (6-8), starv (2-4), niko) : '''R_star''' <br> sur les Fedora (surf) : '''R_surf''' D'ailleurs des anciennes versions sont/restent disponibles : <br> sur les RedHat (star (6-8), starv (2-4), niko) : '''R-2.13.2_star'''<br> sur les Fedora (surf) : '''R-2.13.1_surf''' Pour quitter R tappez : q() . ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] a94f82deb91ca71532e871d797a8af6c0a31e3dd 2824 2823 2011-11-14T13:18:23Z Wraff 5 wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== Les versions R-2.13.x et 2.14.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 14 nov 11).<br> En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R_star/ et /biolo/R_surf/ .<br> Pour lancer la version la '''plus récente de R''' sur les serveurs tapez : <br> sur les RedHat (star (6-8), starv (2-4), niko) : '''R_star''' <br> sur les Fedora (surf) : '''R_surf''' D'ailleurs des anciennes versions sont/restent disponibles : <br> sur les RedHat (star (6-8), starv (2-4), niko) : '''R-2.13.2_star'''<br> sur les Fedora (surf) : '''R-2.13.1_surf''' Pour quitter R tappez : q() . ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] c5a26341386232492746dc3da57eba6c49e646ec BIRD 0 1313 2825 2747 2011-12-08T09:50:35Z Nguyen 15 wikitext text/x-wiki BIRD System : Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://asso-aria.org/coria/2008/151.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, in preparing for publication... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. All authors contributed equally to this work. Decrypthon Data Center BIRD System are developed by N.H. NGUYEN 8. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System & SM2PH& DDC == 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt] 4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRD_SM2PH_080409.ppt] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653265 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] d01ec4272d9c937ba90037ab8311faadd8c8833b 2826 2825 2011-12-12T14:02:28Z Nguyen 15 /* BIRD System Overview */ wikitext text/x-wiki BIRD System : Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===Scientific Context=== Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management. ===BIRD System Overview=== The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] ==[[BIRD Data Access Protocol]]s== Several protocols are available see more [[BIRD Data Access Protocol]] ==BIRD KDD-Knowledge Discovery == BIRD Databases are compatible with DB2 Miner Intelligent ===DB2 Intelligent Miner (API)=== Data flow of the mining procedure (FindDeviations ex.) [[Image:kdd_model.jpg]] Finding deviations Finding groups with similar characteristics (ClusterTable procedure) You can find groups with similar characteristics using the ClusterTable procedure. When to do it: The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family status The information might also include the income or the socio-demographic group of the customer Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure. Predicting future behavior (PredictColumn procedure) In the tables or views of your database (Transciptomic or clinical Data), there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients Finding most important fields (FindMostImpFields procedure) You can find the most important fields using the FindMostImpFields procedure. Example in BIRD-QL [[Image:deviation.jpg]] ==[[MAP Semantic]]== [[Image:Carte.jpg]] The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step. This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...) ==[[Decrypthon Data Center]]== ===Overview=== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..) Running on the Décrypthon Grid. Management of generated data (results) on the Grid Sharing of data and services for the scientific community ==MACSIMS uses the BIRDQL engine== MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist. Macsims uses a direct connection to the Bird database ==GPS uses the BIRDQL engine== http://gps.nucleic.fr ==Gscope utilise BIRD== Gscope can now establish a direct connection with the Bird system * proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}} * proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}} In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch''' ==[[BIRD Development]]== see more [[BIRD Development]] ==[[BIRD KDE or ILBLab]]== ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]] ==Publications== 1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://asso-aria.org/coria/2008/151.pdf] 2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]. '*' These authors contributed equally to this work 3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O. SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases. Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract]. '*' These authors contributed equally to this work 4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle. Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W. Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1] 5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351. 6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, in preparing for publication... (Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch) 7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. All authors contributed equally to this work. Decrypthon Data Center BIRD System are developed by N.H. NGUYEN 8. "BIRDQL-A new Biological Query Language " is preparing for.... ==Powerpoint Presentations of BIRD System & SM2PH& DDC == 1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt] 2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt] 3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt] 4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRD_SM2PH_080409.ppt] ==Contact== Nguyen Ngoc Hoan,PhD IGBMC Strasbourg 1 rue Laurent Fries BP 10142 67404 Illkirch CEDEX / France Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr] Tel: 0033 388653265 --[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)--- ==FAQ?== [[Category:Bird_project]] acdbb516c4007af2cf3f86fa3be84fa8fef900f1 Installation PHP 0 1347 2831 1746 2012-01-11T15:06:13Z Ripp 1 wikitext text/x-wiki Installation PDO for PHP5 on Ubuntu voir surtout [http://lbgi.igbmc.fr/lbgiki/Installation_Ubuntu Installation_Ubuntu sur lbgiki] # installation php5-dev # installation postgresql-server-dev-8.1 # find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or wherever yours is located) and REMOVE this snippet from that function: <pre> if test "x$is_it_shared" = "x" && test "x$3" != "xtrue"; then AC_MSG_ERROR([ You've configured extension $1, which depends on extension $2, but you've either not enabled $2, or have disabled it. ]) fi </pre> ## command: pecl install pdo_pgsql ## In php.ini for cli and apache2: extension=pdo.so and extension=pdo_pgsql.so a4b8038534df8a01ec2efe5549f69831d0a0be94 2832 2831 2012-01-11T15:09:12Z Ripp 1 wikitext text/x-wiki Je crois que que cette page obsolète (Raymond) voir [http://lbgi.igbmc.fr/lbgiki/Installation_Ubuntu Installation_Ubuntu sur lbgiki] ==Obsolete== #Installation PDO for PHP5 on Ubuntu ## installation php5-dev ## installation postgresql-server-dev-8.1 ## find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or wherever yours is located) and REMOVE this snippet from that function: <pre> if test "x$is_it_shared" = "x" && test "x$3" != "xtrue"; then AC_MSG_ERROR([ You've configured extension $1, which depends on extension $2, but you've either not enabled $2, or have disabled it. ]) fi </pre> ## command: pecl install pdo_pgsql ## In php.ini for cli and apache2: extension=pdo.so and extension=pdo_pgsql.so 1c7966daf687fe570fd0db0692359876b2196d68 Star 0 1346 2833 2256 2012-01-11T17:13:06Z Ripp 1 wikitext text/x-wiki Les Stars étaient nos machines de calcul avant l'arrivée des [[Lames]] Les StarV sont des lames sous RedHat Surf et les Lame1 à Lame14 sont des lames 16 CPUs 24 GO mémoire sous Fedora La suite est très aléatoire ... ==Systèmes d'exploitation== * Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris * Star 3 , 4 , 6 , 7 , 8 sont maintentant toutes sous Linux RedHat ==Disques== * /home est monté sur toutes les machines. On y trouve toutes les ''home-directories''. En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques. Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur * /usr/local est en fait /linux/local Il est commun à toutes les machines linux. Notons qu'il peut y avoir quelques incompatibilités entre les RedHat, les Fedora et les Ubuntu La suite est à verifier ... [[R]] tourne spécifiquement sur star5. [[java]] 1.5 est installé sur star6. 655167ed4660242e4a98b3413bfd0e4ee6f45565 2834 2833 2012-01-11T17:15:42Z Ripp 1 wikitext text/x-wiki Les Star mais ... * Les Stars étaient nos machines de calcul avant l'arrivée des [[Lames]] * Les StarV sont des lames sous RedHat * Surf et les Lame1 à Lame14 sont des lames 16 CPUs 24 GO mémoire sous Fedora La suite est très aléatoire ... ==Systèmes d'exploitation== * Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris * Star 3 , 4 , 6 , 7 , 8 sont maintentant toutes sous Linux RedHat ==Disques== * /home est monté sur toutes les machines. On y trouve toutes les ''home-directories''. En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques. Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur * /usr/local est en fait /linux/local Il est commun à toutes les machines linux. Notons qu'il peut y avoir quelques incompatibilités entre les RedHat, les Fedora et les Ubuntu La suite est à verifier ... [[R]] tourne spécifiquement sur star5. [[java]] 1.5 est installé sur star6. c244890edc6784e8d3125c5155bc1bd56c626732 Kilida et Alnitak 0 1330 2835 1576 2012-01-11T17:18:45Z Ripp 1 wikitext text/x-wiki [[Kilida]] et [[Alnitak]] sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre en faisant l'échange des numéros IP. Il y a en fait deux machines physiques. Alnitak est la machine serveur de bases de données visible de l'extérieur. Kilida est le miroir. Il y a aussi Eyear et Moby qui sont des bipro 12 coeurs avec 48 GO de mémoire dfe21ac6120b82aa8dad161edda4abd8fa92a370 Main Page 0 1279 2836 2817 2012-01-11T17:20:46Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] . ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 387cddc9d87c97d492db1c9149a7495f692cf634 2839 2836 2012-01-17T08:50:14Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur [[http://lbgi.igbmc.fr/wikili wikili]] le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] . ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 3a59eb9560168fff95ac1033efcd6667663478ce 2840 2839 2012-01-17T08:51:10Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] . ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 4d8ad6cfd7ba002666d84b74c0a6e7417d20d3ab 2841 2840 2012-01-17T08:52:19Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)]] Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] . ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 4fa7a4a01e2003874bcc37de53d19018a5a74ef0 2842 2841 2012-01-17T08:52:36Z Ripp 1 wikitext text/x-wiki Bonjour, ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] . ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] abe3a965ca6bdede4963e783ef6a76fd10591044 2843 2842 2012-01-17T08:52:53Z Ripp 1 wikitext text/x-wiki ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] . ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 329388cd7094a415d6ceec690412e836fa677447 2844 2843 2012-01-17T08:54:30Z Ripp 1 wikitext text/x-wiki ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir aussi '''wiki privé''' [http://lbgi.igbmc.fr/lbgiki LBGIki] (accès resteint aux membres du laboratoire). ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 18b8f706cb99a04c19b16f57f561ff63ed23537d 2845 2844 2012-01-17T08:55:49Z Ripp 1 wikitext text/x-wiki ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir aussi [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] cd35e44575b90d353a230ba0caca6669eb70c4e6 2846 2845 2012-01-17T08:56:40Z Ripp 1 wikitext text/x-wiki ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 36af664084380e0d84b19a4f84733d7d75a02121 2855 2846 2012-01-23T18:41:21Z Ripp 1 /* Thématiques et Projets */ wikitext text/x-wiki ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] c4e3a89c21567296bfafcef4368e999b6daf97e4 2858 2855 2012-03-12T09:32:42Z Ripp 1 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est maintenant hébergée par kilida 2012/03/12. Raymond ) ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 52b85dfcc0c31af90d0ddac9f32d508e5d72be2e 2859 2858 2012-03-12T09:33:15Z Ripp 1 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] ca46af1f2c7b73b6c441a8769b2c675711247c9e RetinoBase 0 1344 2837 1743 2012-01-17T08:24:55Z Ripp 1 wikitext text/x-wiki go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:raymond.ripp@igbmc.fr raymond.ripp@igbmc.fr] ==What is RetinoBase== RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. ==RetinoBase can be accessed through a Fed instance== [[Fed]] for RetinBase is now available. It allows the management uf users and datafiles with access rights ==Datasets in RetinoBase== Retinobase stores the expression profiles of genes from a microarray experiment. The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans. Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII. ==Data pre-processing== Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase. The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase. All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors. ==User Manual== * User manual .doc file * [[RetinoBase Website]] ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. Retinobase uses open-source tools. ==External Links== * [http://www-genoret.u-strasbg.fr/genoret Genoret Database] * [http://www-genoret.u-strasbg.fr/GenoretGenes GenoretGenes] bb12255799398ab0c7baa3da5d02b2ef77b37f84 GxDb 0 1426 2838 2732 2012-01-17T08:48:13Z Ripp 1 wikitext text/x-wiki GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp voir le wiki privé [http://lbgi.igbmc.fr/lbgiki/GxDb http://lbgi.igbmc.fr/lbgiki/GxDb] e1fa084984fdd634dbd5dd71711fb679c12ae0a5 2849 2838 2012-01-17T15:14:41Z Ripp 1 wikitext text/x-wiki GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp voir le wiki privé [http://lbgi.igbmc.fr/lbgiki/GxDb http://lbgi.igbmc.fr/lbgiki/GxDb] GxDb Gene eXpression DataBase developped by Laetitia Poidevin, Wolfgang Raffelsberge, Raymond Ripp and Olivier Poch See the [http://gx.igbmc.fr GxDb website] ==Aim of GxDb== During the recent years gene expression profiling through transcriptomics has become an essential tool in many domains of research. This technique generates large quantities of data that may be exploited in many different ways allowing to reveal different aspects of the nature of the original data. The analysis and the meta- analysis of such data still remain quite laborious and often are not easily accessible to biologists. In this context, we develop an innovative platform, called GxDb, in order to offer an integrative tool for the analysis of transcriptomics data analysis. This platform is accessible through a secured web- portal and allows convenient upload of data, storage in a relational database and running many treatment and analysis procedures automatically. At the user interface, data query and analysis is greatly facilitated through the various modules and options for graphical display. GxDb clearly extends the opportunity to compare results from different treatment and analysis procedures (including human expert analysis) and/or different experiments. This also gives to the biologist tools for investigating and understanding the strengths and weaknesses of the data-treatments or combination thereof used during analysis, thus allowing to choose the best approach and tools for a given experimental question or a given gene. ==Datasets in GxDb== * PeripheryMacula Periphery versus Macula from the retina of two patients 55 and 82 years old * congRD1 wt vs rd1 at different temporal points * A764Nxnl1 different genotypes: wt, nxnl1+/- and nxnl1-/- exposed 250 lux can be compared to A777Nxnl2 and A908Nxnl1Lux experiments * A777Nxnl2 different genotypes: wt and nxnl2-/- exposed to 250 lux can be compared to A764Nxnl1 and A908Nxnl1Lux experiments * A908Nxnl1Lux different genotypes: wt and nxnl1-/- exposed to 250, 2500 and 5000 lux can be compared to A764Nxnl1 and A777Nxnl2 experiments MouseGeneAtlasV3 High-throughput gene expression profiling has become an important tool for investigating transcriptional activity in a variety of biological samples. To date, the vast majority of these experiments have focused on specific biological processes and perturbations. Here, we profiled gene expression from a diverse array of normal tissues, organs, and cell lines in mice. Keywords: multiple tissues * HumanGeneAtlas The tissue-specific pattern of mRNA expression can indicate important clues about gene function. High-density oligonucleotide arrays offer the pportunity to examine patterns of gene expression on a genome scale. Toward this end, we have designed custom arrays that interrogate the expression of the vast majority of rotein-encoding human and mouse genes and have used them to profile a panel of 79 human and 61 mouse tissues. The resulting data set provides the expression patterns for housands of predicted genes, as well as known and poorly characterized genes, from mice and humans. We have explored this data set for global trends in gene expression, valuated commonly used lines of evidence in gene prediction methodologies, and investigated patterns indicative of chromosomal organization of transcription. We describe undreds of regions of correlated transcription and show that some are subject to both tissue and parental allele-specific expression, suggesting a link between spatial xpression and imprinting. Keywords: different tissues SamplePrefix=HGA_= * ALL Gene expression profiles were examined in 33 adult patients with T-cell acute lymphocytic leukemia (T-ALL) different immunophenotypic characteristics: 1,T2,T3,T4 and Tnc(incomplete phenotype) * HumanBreastCancer Human breast cancer cell line MCF-7 is usually sensitive to chemotherapy drug BMS-554417, an insulin receptor (IR) and insulin-like growth factor receptor (IGFR) inhibitor. However, through step-wise increase in BMS-554417 doses in culture media, we were able able to screen and select a single MCF-7 clone that is BMS-554417 resistant. It is cross resistant to BMS-536924. This new line of MCF-7 cells was named as MCF-7R4. The transcriptome profiling of both MCF-7 and MCF-7R4 was performed sing Affymetrix HG-U133 plus2.0 GeneChip arrays. * Calvano2005 LPS reaction in human blood, study by Calvano et al Nature 2005 * HumanEmbryo The process of early development of mammals is subtly and accurately controlled by the regulation networks of embryo cells. Time course expression data measured at different stages during early embryo development process can give us valuable information by revealing the dynamic expression patterns of genes in genome wide scale. In this study, Human embryo expression data were generated at one cell stage, two cell stage, four cell stage, eight cell stage, morula, and blastocyst. * Blood_Xigris1 Transcription profiles for blood samples from 20 patients with septic shock symptoms, before (T0) and after treatment (T1, with or without drug Xigris) (data private) and normal individuals (GEO) as reference ==Data processing== Data obtained at the level of .CEL files are analysed with 6 different normalization softwares : * RMA * gcRMA * dChip * MAS5 * VSN * Plier using programs developped with the R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. All the experiments in GxDb are clustered using 3 clustering methods from the [[Cluspack]] package * km_dpc K-means Density of Point Clustering * mm_aic Mixure Model Akaike’s Information Criterion * mm_bic Mixure Model Bayesian Information Criterion ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. GxDb uses open-source tools. d7e6a656d02a2b12ae5bcd536b0b9759914ba8e6 2850 2849 2012-01-17T17:58:53Z Ripp 1 wikitext text/x-wiki GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp voir le wiki privé [http://lbgi.igbmc.fr/lbgiki/GxDb http://lbgi.igbmc.fr/lbgiki/GxDb] See the [http://gx.igbmc.fr GxDb website] ==Aim of GxDb== During the recent years gene expression profiling through transcriptomics has become an essential tool in many domains of research. This technique generates large quantities of data that may be exploited in many different ways allowing to reveal different aspects of the nature of the original data. The analysis and the meta- analysis of such data still remain quite laborious and often are not easily accessible to biologists. In this context, we develop an innovative platform, called GxDb, in order to offer an integrative tool for the analysis of transcriptomics data analysis. This platform is accessible through a secured web- portal and allows convenient upload of data, storage in a relational database and running many treatment and analysis procedures automatically. At the user interface, data query and analysis is greatly facilitated through the various modules and options for graphical display. GxDb clearly extends the opportunity to compare results from different treatment and analysis procedures (including human expert analysis) and/or different experiments. This also gives to the biologist tools for investigating and understanding the strengths and weaknesses of the data-treatments or combination thereof used during analysis, thus allowing to choose the best approach and tools for a given experimental question or a given gene. ==Public Datasets in GxDb== * HumanGeneAtlas The tissue-specific pattern of mRNA expression can indicate important clues about gene function. High-density oligonucleotide arrays offer the pportunity to examine patterns of gene expression on a genome scale. Toward this end, we have designed custom arrays that interrogate the expression of the vast majority of rotein-encoding human and mouse genes and have used them to profile a panel of 79 human and 61 mouse tissues. The resulting data set provides the expression patterns for housands of predicted genes, as well as known and poorly characterized genes, from mice and humans. We have explored this data set for global trends in gene expression, valuated commonly used lines of evidence in gene prediction methodologies, and investigated patterns indicative of chromosomal organization of transcription. We describe undreds of regions of correlated transcription and show that some are subject to both tissue and parental allele-specific expression, suggesting a link between spatial xpression and imprinting. Keywords: different tissues SamplePrefix=HGA_= * ALL Gene expression profiles were examined in 33 adult patients with T-cell acute lymphocytic leukemia (T-ALL) different immunophenotypic characteristics: 1,T2,T3,T4 and Tnc(incomplete phenotype) * HumanBreastCancer Human breast cancer cell line MCF-7 is usually sensitive to chemotherapy drug BMS-554417, an insulin receptor (IR) and insulin-like growth factor receptor (IGFR) inhibitor. However, through step-wise increase in BMS-554417 doses in culture media, we were able able to screen and select a single MCF-7 clone that is BMS-554417 resistant. It is cross resistant to BMS-536924. This new line of MCF-7 cells was named as MCF-7R4. The transcriptome profiling of both MCF-7 and MCF-7R4 was performed sing Affymetrix HG-U133 plus2.0 GeneChip arrays. * HumanEmbryo The process of early development of mammals is subtly and accurately controlled by the regulation networks of embryo cells. Time course expression data measured at different stages during early embryo development process can give us valuable information by revealing the dynamic expression patterns of genes in genome wide scale. In this study, Human embryo expression data were generated at one cell stage, two cell stage, four cell stage, eight cell stage, morula, and blastocyst. ==Data processing== Data obtained at the level of .CEL files are analysed with 6 different normalization softwares : * RMA * gcRMA * dChip * MAS5 * VSN * Plier using programs developped with the R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. All the experiments in GxDb are clustered using 3 clustering methods from the [[Cluspack]] package * km_dpc K-means Density of Point Clustering * mm_aic Mixure Model Akaike’s Information Criterion * mm_bic Mixure Model Bayesian Information Criterion ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. GxDb uses open-source tools. e468ba314deb4b4ebcccdc1bbceef1b37746a344 2851 2850 2012-01-17T18:01:18Z Ripp 1 wikitext text/x-wiki GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp voir le wiki privé [http://lbgi.igbmc.fr/lbgiki/GxDb http://lbgi.igbmc.fr/lbgiki/GxDb] See the [http://gx.igbmc.fr GxDb website] ==Aim of GxDb== During the recent years gene expression profiling through transcriptomics has become an essential tool in many domains of research. This technique generates large quantities of data that may be exploited in many different ways allowing to reveal different aspects of the nature of the original data. The analysis and the meta- analysis of such data still remain quite laborious and often are not easily accessible to biologists. In this context, we develop an innovative platform, called GxDb, in order to offer an integrative tool for the analysis of transcriptomics data analysis. This platform is accessible through a secured web- portal and allows convenient upload of data, storage in a relational database and running many treatment and analysis procedures automatically. At the user interface, data query and analysis is greatly facilitated through the various modules and options for graphical display. GxDb clearly extends the opportunity to compare results from different treatment and analysis procedures (including human expert analysis) and/or different experiments. This also gives to the biologist tools for investigating and understanding the strengths and weaknesses of the data-treatments or combination thereof used during analysis, thus allowing to choose the best approach and tools for a given experimental question or a given gene. ==Public Datasets in GxDb== * MouseGeneAtlasV3 High-throughput gene expression profiling has become an important tool for investigating transcriptional activity in a variety of biological samples. To date, the vast majority of these experiments have focused on specific biological processes and perturbations. Here, we profiled gene expression from a diverse array of normal tissues, organs, and cell lines in mice. * HumanGeneAtlas The tissue-specific pattern of mRNA expression can indicate important clues about gene function. High-density oligonucleotide arrays offer the pportunity to examine patterns of gene expression on a genome scale. Toward this end, we have designed custom arrays that interrogate the expression of the vast majority of rotein-encoding human and mouse genes and have used them to profile a panel of 79 human and 61 mouse tissues. The resulting data set provides the expression patterns for housands of predicted genes, as well as known and poorly characterized genes, from mice and humans. We have explored this data set for global trends in gene expression, valuated commonly used lines of evidence in gene prediction methodologies, and investigated patterns indicative of chromosomal organization of transcription. We describe undreds of regions of correlated transcription and show that some are subject to both tissue and parental allele-specific expression, suggesting a link between spatial xpression and imprinting. Keywords: different tissues. * ALL Gene expression profiles were examined in 33 adult patients with T-cell acute lymphocytic leukemia (T-ALL) different immunophenotypic characteristics: 1,T2,T3,T4 and Tnc(incomplete phenotype) * HumanBreastCancer Human breast cancer cell line MCF-7 is usually sensitive to chemotherapy drug BMS-554417, an insulin receptor (IR) and insulin-like growth factor receptor (IGFR) inhibitor. However, through step-wise increase in BMS-554417 doses in culture media, we were able able to screen and select a single MCF-7 clone that is BMS-554417 resistant. It is cross resistant to BMS-536924. This new line of MCF-7 cells was named as MCF-7R4. The transcriptome profiling of both MCF-7 and MCF-7R4 was performed sing Affymetrix HG-U133 plus2.0 GeneChip arrays. * HumanEmbryo The process of early development of mammals is subtly and accurately controlled by the regulation networks of embryo cells. Time course expression data measured at different stages during early embryo development process can give us valuable information by revealing the dynamic expression patterns of genes in genome wide scale. In this study, Human embryo expression data were generated at one cell stage, two cell stage, four cell stage, eight cell stage, morula, and blastocyst. ==Data processing== Data obtained at the level of .CEL files are analysed with 6 different normalization softwares : * RMA * gcRMA * dChip * MAS5 * VSN * Plier using programs developped with the R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. All the experiments in GxDb are clustered using 3 clustering methods from the [[Cluspack]] package * km_dpc K-means Density of Point Clustering * mm_aic Mixure Model Akaike’s Information Criterion * mm_bic Mixure Model Bayesian Information Criterion ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. GxDb uses open-source tools. ed3c75ff567fc88d4a95df15c8b0c7a36bf70d8f Quel outil utilise quel outil 0 1432 2847 2815 2012-01-17T09:08:31Z Ripp 1 wikitext text/x-wiki voir http://dbgs.igbmc.fr/dbgs/phpRR/lance.php?action=FedFun::qo Quel outil utilise quels outils parmi : * Gscope * PipeAlign * Blast * Ballast * ClustalW * Cluspack * Macsims * KoAnno * GxDb * SM2PH * BlastDatabases * OrthoInspector * BIRD * StringInteractome * ILP * KbmPortal * SqlDatabase * DB2DataWarehouse * TomcatServer * AlexSys * R-library * Modeller * DSSP * I-Mutant * Delphi * SIFT * WebSpherePortal * BioJava * Weka 47ff3c9862d1ce3ecd15cf0e7e62f4ee0ec5201e 2848 2847 2012-01-17T09:09:09Z Ripp 1 wikitext text/x-wiki voir http://dbgs.igbmc.fr/dbgs/phpRR/lance.php?action=FedFun::qo Quel outil utilise quels outils parmi : * Gscope * PipeAlign * Blast * Ballast * ClustalW * Cluspack * Macsims * KoAnno * GxDb * SM2PH * BlastDatabases * OrthoInspector * BIRD * StringInteractome * ILP * KbmPortal * SqlDatabase * DB2DataWarehouse * TomcatServer * AlexSys * R-library * Modeller * DSSP * I-Mutant * Delphi * SIFT * WebSpherePortal * BioJava * Weka 28b1b4d07dda3658bdc2a5e9e09538b272adb75e ImAnno 0 1434 2852 2012-01-23T18:31:13Z Ripp 1 New page: ImAnno is the Image Annotation Tool ==Definition== ''ImAnno'' is a web based annotation tool. It allows the annotation of all kind of images, texts, "concepts" through a web interface. <... wikitext text/x-wiki ImAnno is the Image Annotation Tool ==Definition== ''ImAnno'' is a web based annotation tool. It allows the annotation of all kind of images, texts, "concepts" through a web interface. <br/> The annotations are stored in the relational database]] and can be retrieved and queried through a powerfull search engine. ==First Goal of ImAnno== The first goal of ''ImAnno'' was to allow the annotation of thousands of the In Situ Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project]. This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris * [[ImAnno Standard Operation Procedure]] * [[ImAnno Search Tool]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach ==What is stored== One annotation is related to one or several images (or even something else). The images are referenced by local or foreign http links. These links are stored in the database and can be sorted manually. The display of the image is made through these links using the "show image" button. An annotation consists of several annotation fields : <br/> For each annotation field are defined * a title * 2 or more radio buttons with exclusive choice * a keywords select field * a freecomment field The labels of the radio buttons and keywords can be specific to each field. ==What about the images== In some cases the ImAnno annotation can be illustrated with images on which the annotation values are dispalyed through colors. To create an ImAnno set of images : # create a colored image with Powerpoint or Inkscape # use the color ramp according to the tissue order (the fist one 0 is black) # save the file as ImAnnoTissue-organ-body-show-600.png -300 -150 # remove the color ramp and save the same sizes with a yellow background # run Execute.php?ImAnnoCreateFiles$organ 5a3343626ae99b4c39ccc198b42bbfed523eabf2 2857 2852 2012-02-01T15:05:39Z Ripp 1 wikitext text/x-wiki ImAnno is the Image Annotation Tool ==Definition== ''ImAnno'' is a web based annotation tool. It allows the annotation of all kind of images, texts, "concepts" through a web interface. <br/> The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine. ==First Goal of ImAnno== The first goal of ''ImAnno'' was to allow the annotation of thousands of the In Situ Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project]. This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris * [[ImAnno Standard Operation Procedure]] * [[ImAnno Search Tool]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach ==What is stored== One annotation is related to one or several images (or even something else). The images are referenced by local or foreign http links. These links are stored in the database and can be sorted manually. The display of the image is made through these links using the "show image" button. An annotation consists of several annotation fields : <br/> For each annotation field are defined * a title * 2 or more radio buttons with exclusive choice * a keywords select field * a freecomment field The labels of the radio buttons and keywords can be specific to each field. ==What about the images== In some cases the ImAnno annotation can be illustrated with images on which the annotation values are dispalyed through colors. To create an ImAnno set of images : # create a colored image with Powerpoint or Inkscape # use the color ramp according to the tissue order (the fist one 0 is black) # save the file as ImAnnoTissue-organ-body-show-600.png -300 -150 # remove the color ramp and save the same sizes with a yellow background # run Execute.php?ImAnnoCreateFiles$organ 7750936da7b41c4a1169d2df5a0d3be5723893c4 ImAnno Standard Operation Procedure 0 1435 2853 2012-01-23T18:36:33Z Ripp 1 New page: ImAnno Standard Operation Procedure * [[GenePaint Gene Annotation with ImAnno]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rappo... wikitext text/x-wiki ImAnno Standard Operation Procedure * [[GenePaint Gene Annotation with ImAnno]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach 27d68d566a02940a220d51836eecf736f0cc8135 GenePaint Gene Annotation with ImAnno 0 1436 2854 2012-01-23T18:37:10Z Ripp 1 New page: The website [http://genepaint.org/ GenePaint] provides thousands of the In Situ Hybridization images. These images correspond to the 24 sagittal sections at embryonic day 14.5. The goal... wikitext text/x-wiki The website [http://genepaint.org/ GenePaint] provides thousands of the In Situ Hybridization images. These images correspond to the 24 sagittal sections at embryonic day 14.5. The goal of GenePaint Gene Annotation with ImAnno is to annotate sets of genes provided by GenePaint. Three projects were launched : eye, teeth and ear ==Eye== The tissue types which have been annotated are : # Neural Retina Inner neuroblastic layer # Neural Retina Outer neuroblastic layer # Lens Central cells # Lens Anterior epithelium # Corneal Mesothelium # Corneal Epithelium # Epithelia Palpebral folds # Epithelia Conjunctival/perioptic epithelium # Mesenchyme Eyelid # Mesenchyme Scleral # Mesenchyme Condensed perioptic mes. including ocular muscles # Mesenchyme Loose perioptic mes. including orbital bone # Mesenchyme Retrolenticular # Mesenchyme Hyaloid plexi # Non-ocular head tissues Surface epithelium # Non-ocular head tissues Mesenchyme # Non-ocular head tissues Muscles # Non-ocular head tissues Bone # Non-ocular head tissues Vasculatur # Other body regions Central nervous system # Other body regions Other body regions Foreach tissue type you have to select between * NA * Negative * Weak * Strong and you can add zero or more keyword * patchy * spotted * regionalized * dev nerves ==Teeth== # General expression pattern # Oral epithelium # Molar Gubernaculum # Molar Epithelial Compartment Enamel organ # Molar Epithelial Compartment Enamel organ Outer enamel epithelium # Molar Epithelial Compartment Enamel organ Stellate reticulum # Molar Epithelial Compartment Enamel organ Inner enamel epithelium Future cusp area # Molar Epithelial Compartment Enamel organ Inner enamel epithelium Epithelial loop area # Molar Epithelial Compartment Enamel organ Enamel knot # Molar Mesenchymal compartment Dental sac # Molar Mesenchymal compartment Dental Papilla # Molar Mesenchymal compartment Dental Papilla Core # Molar Mesenchymal compartment Dental Papilla Future cusp area # Molar Mesenchymal compartment Dental Papilla Cervical area # Molar Mesenchymal compartment Alveolar bone # Incisor Gubernaculum # Incisor Epithelial Compartment Enamel organ # Incisor Epithelial Compartment Enamel organ Outer enamel epithelium # Incisor Epithelial Compartment Enamel organ Stellate reticulum # Incisor Epithelial Compartment Enamel organ Stratum Intermedium # Incisor Epithelial Compartment Enamel organ Inner enamel epithelium Anterior area # Incisor Epithelial Compartment Enamel organ Inner enamel epithelium Epithelial loop area # Incisor Epithelial Compartment Enamel organ Enamel knot # Incisor Mesenchymal compartment Dental sac # Incisor Mesenchymal compartment Dental Papilla # Incisor Mesenchymal compartment Dental Papilla Core # Incisor Mesenchymal compartment Dental Papilla Anterior area # Incisor Mesenchymal compartment Dental Papilla Cervical area # Incisor Mesenchymal compartment Alveolar bone # Non-dental head tissues Meckel cartilage # Non-dental head tissues Tongue # Non-dental head tissues Palate Epithelium # Non-dental head tissues Palate Medial epithelial seam # Non-dental head tissues Palate Mesenchyme # Non-dental head tissues Salivary glands # Non-dental head tissues Nasal # Other body regions # EurExpress ==Ear (including other tissues from the sensory system)== # External acoustic meatus # Middle ear ossicles # Middle ear tympanic membrane # Middle ear mesenchyme # Otic capsule # Inner ear mesenchyme # Stato-acoustic ganglion # Inner spiral sulcus # Kolliker # Stria vascularis # Outer spiral sulcus # Sacculus sensory region # Sacculus other cells # Utriculus sensory region # Utriculus other cells # Crista sensory region # Crista other cells # Semi-circular canals # Endolymphatic duct and sac # Choroide plexus 4th ventricule # Hindbrain # Sensory retina # Olfactory organ # Cartilage primordium of ribs # Follicles of vibrissae 1402d3dd84fec899e89ebaa728824a0c61516b0a Kilida 0 1283 2856 1577 2012-01-23T18:45:07Z Ripp 1 wikitext text/x-wiki '''Kilida''' veut dire '''oeil''' en grec moderne. ==Kilida serveur== Kilida était destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]. En attendant il sert de miroir et de machine test car c'est [[Alnitak]] le vrai serveur... voir [[Kilida et Alnitak]] Kilida tourne sous Ubuntu Voir [[Installation de Ubuntu]] 08644923845780080e5cd7ba0b75bbe8370f0f7b String 0 1421 2860 2805 2012-04-05T09:33:30Z Wraff 5 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} (for example:) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 54812013ce56e0d4dea577891ee51c9115ac3098 2861 2860 2012-04-05T09:34:35Z Wraff 5 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 0c368d0150b044a4dfc9501ab9328c8a829b4900 2862 2861 2012-04-05T09:35:28Z Wraff 5 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond ae9a283a45f21cbfa5f676804cd2ecdc95afafc1 2876 2862 2012-12-27T10:29:10Z Ripp 1 wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]] =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond caa6f702404a93f319d7f20e681a2d0a9904799d R 0 1320 2863 2824 2012-04-12T12:20:12Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== Les versions R-2.13.x et 2.14.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 14 nov 11).<br> En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R_star/ et /biolo/R_surf/ .<br> Pour lancer la version la '''plus récente de R''' sur les serveurs tapez : <br> sur les RedHat (star6, niko) : '''R_star''' <br> sur les Fedora et Ubuntu (surf, alnitak) : '''R_surf''' or '''R''' D'ailleurs des versions particuliers sont/restent disponibles : <br> sur les RedHat (star6, niko) : '''R-2.13.2_star''' , '''R-2.14.0_star'''<br> sur les Fedora et Ubuntu (surf, alnitak) : '''R-2.13.1_surf''' , '''R-2.14.1_surf''' , '''R-2.15.0_surf'''<br> Pour quitter R tappez : q() . ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] d77bb453b887eccff494f8b9f7059bf1503d90c3 2864 2863 2012-04-12T12:21:24Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== Les versions R-2.13.x, R-2.14.x et 2.15.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 12 apr 12).<br> En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R_star/ et /biolo/R_surf/ .<br> Pour lancer la version la '''plus récente de R''' sur les serveurs tapez : <br> sur les RedHat (star6, niko) : '''R_star''' <br> sur les Fedora et Ubuntu (surf, alnitak) : '''R_surf''' or '''R''' D'ailleurs des versions particuliers sont/restent disponibles : <br> sur les RedHat (star6, niko) : '''R-2.13.2_star''' , '''R-2.14.0_star'''<br> sur les Fedora et Ubuntu (surf, alnitak) : '''R-2.13.1_surf''' , '''R-2.14.1_surf''' , '''R-2.15.0_surf'''<br> Pour quitter R tappez : q() . ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] c5822dc55c4fe0f07996432a6eba861ec35c1a1f 2865 2864 2012-04-12T12:22:36Z Wraff 5 /* R sur Serveur */ wikitext text/x-wiki R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques. =Comment le lancer?= ==R sur Serveur== Les versions R-2.13.x, R-2.14.x et 2.15.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 12 apr 12).<br> En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R_star/ et /biolo/R_surf/ .<br> Pour lancer la version la '''plus récente et stable de R''' sur les serveurs tapez : <br> sur les RedHat (star6, niko) : '''R_star''' <br> sur les Fedora et Ubuntu (surf, alnitak) : '''R_surf''' or '''R''' D'ailleurs des versions particuliers sont/restent disponibles : <br> sur les RedHat (star6, niko) : '''R-2.13.2_star''' , '''R-2.14.0_star'''<br> sur les Fedora et Ubuntu (surf, alnitak) : '''R-2.13.1_surf''' , '''R-2.14.1_surf''' , '''R-2.15.0_surf'''<br> Pour quitter R tappez : q() . ==R pour Windows== On trouve la version la plus récente sur http://www.r-project.org/ <br> <br> =Librairies = L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres). Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br> [http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br> Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH. Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms] ==Librairies développées en collaboration avec le LBGI== *[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix) *[[GxTools]] (en preparation) *[[batchTCA]] (en preparation) ==Librairies utiles== *[[rJava]] pour appeler du java depuis R <br> =Performing Statistics using R = *[[t-test]] =Liens= *[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique] *[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R] *[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français] *[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R] *[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows *[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki *[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays *[[RReportGenerator]] : un GUI pour des applications de routine utilisant R =Documentation et Tutorials= *Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire. *[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) *Collection of articles : http://cran.r-project.org/other-docs.html *text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br> *or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf *Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/ *R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf *liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro =Mailing Lists= * the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing. * For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]''' * There is also a [http://www.mnhn.fr/semin-r/ French User Group] ca0e9a3470e02fe52693f62ab2e893f994bc25e0 BIRD Data Access Protocol 0 1396 2866 2828 2012-11-16T09:08:03Z Nguyen 15 /* Data Selection by BIRDQL Service */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get EST http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 2: get Protein : http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456 Example 3: get PDB : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS Example 4: get Fasta : http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: in construction ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] feda1c7d62a047d3b519a24228aa90bc592fc146 2867 2866 2012-11-16T09:27:52Z Nguyen 15 /* Simple Services-Bank ID */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get EST http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: in construction ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 71b48887771081b74d68b3c85e74cd1f2b871144 BIRDQL 0 1395 2868 2830 2012-11-16T09:48:11Z Nguyen 15 /* BIRDQL in few words */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in my PhD ( Astrophysics & Virtual Observatory ,2002-2006). Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. '''Example 9''': DBSNP '''Example 9.1''': get DBSNP with XML format ID 268 DB DBSNP '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example 9.3''': find snp by position and reference sequence (GRCh37.p2) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i") FM FLAT // [[Category:Bird_project]] 57e6c56688479f2b57ee065586d86ec5d0b5c890 2869 2868 2012-11-16T09:49:18Z Nguyen 15 /* BIRDQL in few words */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in my PhD ( Astrophysics & Virtual Observatory ,2002-2005). Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. '''Example 9''': DBSNP '''Example 9.1''': get DBSNP with XML format ID 268 DB DBSNP '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example 9.3''': find snp by position and reference sequence (GRCh37.p2) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i") FM FLAT // [[Category:Bird_project]] b11235e5ed24f10558cd4b0cc882f2f014e9d7a1 2870 2869 2012-11-21T05:19:52Z Nguyen 15 /* BIRDQL in few words */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/]. The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in my PhD ( Astrophysics & Virtual Observatory ,2002-2005). Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. '''Example 9''': DBSNP '''Example 9.1''': get DBSNP with XML format ID 268 DB DBSNP '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example 9.3''': find snp by position and reference sequence (GRCh37.p2) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i") FM FLAT // [[Category:Bird_project]] 1c58a7bdb17cb4a854986eee14a8acee8fe885d1 2871 2870 2012-11-21T05:26:59Z Nguyen 15 /* BIRDQL in few words */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/]. The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... '''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..) ID * DB REFSEQ WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens" LM 100 FM FASTA // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. '''Example 9''': DBSNP '''Example 9.1''': get DBSNP with XML format ID 268 DB DBSNP '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example 9.2''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example 9.3''': find snp by position and reference sequence (GRCh37.p2) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i") FM FLAT // [[Category:Bird_project]] 11240df4652cd737e8943dbe2bcd922ca55830c9 2872 2871 2012-11-21T15:26:52Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/]. The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... // '''Example ''': DBSNP '''Example ''': get DBSNP in XML by ID // ID 268 DB DBSNP find snp by position // ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example ''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example ''': find snp by position and reference sequence (GRCh37.p5) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i") FM FLAT // // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] e7b03c1ccdcfb14caad4372d4e24262fd2162b97 2873 2872 2012-11-21T15:27:20Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/]. The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... // '''Example ''': DBSNP '''Example ''': get DBSNP in XML by ID // ID 268 DB DBSNP find snp by position // ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example ''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example ''': find snp by position and reference sequence (GRCh37.p5) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i") FM FLAT // // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] 5af84e8c04de89d1b7f46c73c6518ae2c4682e8b 2874 2873 2012-11-21T15:29:44Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/]. The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Two other examples below also show how to use the BIRD-QL syntax. '''Example 1''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... // '''Example ''': DBSNP '''Example ''': get DBSNP in XML by ID // ID 268 DB DBSNP find snp by position // ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example ''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example ''': find snp by position and reference sequence (GRCh37.p5) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i") FM FLAT // // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] 4b764589a7319932fd90fac57d2e43d760305ddc ImAnno Search Tool 0 1437 2875 2012-11-26T09:23:42Z Ripp 1 New page: ImAnno provides a set of tools to query the database. * Query by Genename * [[ImAnnoSieves]] * [[ImAnnoDoOnList]] * [[ImAnnoCluspack]] wikitext text/x-wiki ImAnno provides a set of tools to query the database. * Query by Genename * [[ImAnnoSieves]] * [[ImAnnoDoOnList]] * [[ImAnnoCluspack]] 12eedcd544af4da5937a0f4289bf574b42caf253 SringInteractome 0 1438 2877 2012-12-27T10:33:00Z Ripp 1 New page: StringInteractome est intégré dans Gscope. A partir d'une liste de gènes, StringINteractoime interroge [[String]] et crée 3 réseaux d'interactions (WithAny, Sandwich et QueryOnly. ... wikitext text/x-wiki StringInteractome est intégré dans Gscope. A partir d'une liste de gènes, StringINteractoime interroge [[String]] et crée 3 réseaux d'interactions (WithAny, Sandwich et QueryOnly. Il crée tous les fichiers nécessaires à Cytoscape et surtout en web à CytoscapeWeb qui sait affiher les réseaux en interactif dans le navigateur Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 4d046f2cec89033f21f4c431c096a197644f6822 2878 2877 2012-12-27T10:34:31Z Ripp 1 wikitext text/x-wiki StringInteractome est intégré dans Gscope. A partir d'une liste de gènes, StringInteractoime interroge la base de données Postgresql [[String]] et crée 3 réseaux d'interactions (WithAny, Sandwich et QueryOnly. Il crée tous les fichiers nécessaires à Cytoscape et surtout en web à CytoscapeWeb qui sait afficher les réseaux en interactif dans le navigateur ==Utilisation en ligne de commande== Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond ebc3a13b31e2545069b104bd5262490de95c160e 2879 2878 2012-12-27T10:39:13Z Ripp 1 wikitext text/x-wiki StringInteractome est intégré dans Gscope. A partir d'une liste de gènes, StringInteractoime interroge la base de données Postgresql [[String]] et crée 3 réseaux d'interactions (WithAny, Sandwich et QueryOnly. Il crée tous les fichiers nécessaires à Cytoscape et surtout en web à CytoscapeWeb qui sait afficher les réseaux en interactif dans le navigateur ==Utilisation en ligne de commande== Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions ==PHP StringInteractome== tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. ==Cytoscape== On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond d5406d558c5a96c7a9f8f40f73457dd0b1b0ba6a GeneNames 0 1409 2880 2487 2013-02-05T09:27:06Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] 064b00ba722f9588f4b3ccca538b75e73bb2833f 2881 2880 2013-02-05T09:45:23Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_Gn ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] b07392f3be506041cf8ae3ffceb554e0dcee4348 2882 2881 2013-02-05T09:45:58Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_Gn ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] eaa717f1e9e7d28088973120e22cedd49624f39c GeneNames 0 1409 2883 2882 2013-02-05T09:47:42Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] c69555c190d39aa0a9545c60535b2b1fec6f3da9 2884 2883 2013-02-05T09:56:59Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf HGNCID ** MGIHGNC ListOf GeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] 8a68a5c9da49f1f2ab7d50c1c98df7a24c57447d 2885 2884 2013-02-05T10:07:42Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf HGNCID ** MGIHGNC ListOf MGIGeneName ** MGIHGNC ListOf HGNCGeneName ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] 1138e17ea60690256b2c3b5f4768d77dfd888d0e 2886 2885 2013-02-05T10:33:35Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf HGNCID ** MGIHGNC ListOf MGIGeneName ** MGIHGNC ListOf HGNCGeneName ** MGIHGNC MGI:97490 HGNCID ** MGIHGNC HGNC:8620 MGIID ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs **MouseFromHuman ListOf Header **MouseFromHuman ListOf GeneName *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) **MouseFromHuman Pax6 **MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) **MouseFromHuman Pax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] 62da33e3b68e73ae47bc38b9544b3448ed936d75 2887 2886 2013-02-05T10:35:19Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf HGNCID ** MGIHGNC ListOf MGIGeneName ** MGIHGNC ListOf HGNCGeneName ** MGIHGNC MGI:97490 HGNCID ** MGIHGNC HGNC:8620 MGIID ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs ** MouseFromHuman ListOf Header ** MouseFromHuman ListOf GeneName ** MouseFromHuman Pax6 ** MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) ** MouseFromHuman Pax6 One_Genename (the most important) *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] 75a66b7853d28c0684d396c3a7162a2a217b5fd4 2888 2887 2013-02-05T10:49:02Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf HGNCID ** MGIHGNC ListOf MGIGeneName ** MGIHGNC ListOf HGNCGeneName ** MGIHGNC MGI:97490 HGNCID ** MGIHGNC HGNC:8620 MGIID ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs ** MouseFromHuman ListOf HumanHeader ** MouseFromHuman ListOf MouseHeader ** MouseFromHuman Pax6 ** MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header) *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] 8ff9b1ff3ae3758ef3b8c32cd5e25e32d745175a 2889 2888 2013-02-05T10:50:31Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf HGNCID ** MGIHGNC ListOf MGIGeneName ** MGIHGNC ListOf HGNCGeneName ** MGIHGNC MGI:97490 HGNCID ** MGIHGNC HGNC:8620 MGIID ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs ** MouseFromHuman ListOf HumanHeader ** MouseFromHuman ListOf MouseHeader ** MouseFromHuman Pax6 ** MouseFromHuman Pax6 header (within MouseFromHuman ListOf MouseHeader) *HumanFromMouse combines these programs **FromHumanFromMouse ListOf Header **FromHumanFromMouse ListOf GeneName **FromHumanFromMouse Pax6 **FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) **FromHumanFromMousePax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] 7664a5d27f339cbf8c2aee3a70b1820c0e3ec007 2890 2889 2013-02-05T10:55:18Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf HGNCID ** MGIHGNC ListOf MGIGeneName ** MGIHGNC ListOf HGNCGeneName ** MGIHGNC MGI:97490 HGNCID ** MGIHGNC HGNC:8620 MGIID ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs ** MouseFromHuman ListOf HumanHeader ** MouseFromHuman ListOf MouseHeader ** MouseFromHuman Pax6 ** MouseFromHuman Pax6 header (within MouseFromHuman ListOf MouseHeader) *HumanFromMouse combines these programs ** HumanFromMouse ListOf HumanHeader ** HumanFromMouse ListOf MouseHeader ** HumanFromMouse Pax6 ** HumanFromMouse Pax6 header (within MouseFromHuman ListOf Header) ** HumanFromMousePax6 One_Genename (the most important) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] 47d66a16b63b2ec8e50e94308aaef18b155d513a 2891 2890 2013-02-05T13:01:25Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf HGNCID ** MGIHGNC ListOf MGIGeneName ** MGIHGNC ListOf HGNCGeneName ** MGIHGNC MGI:97490 HGNCID ** MGIHGNC HGNC:8620 MGIID ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs ** MouseFromHuman ListOf HumanHeader ** MouseFromHuman ListOf MouseHeader ** MouseFromHuman Pax6 ** MouseFromHuman Pax6 header (within MouseFromHuman ListOf MouseHeader) *HumanFromMouse combines these programs ** HumanFromMouse ListOf HumanHeader ** HumanFromMouse ListOf MouseHeader ** HumanFromMouse Pax6 ** HumanFromMouse Pax6 header (within HumanFromMouse ListOf HumanHeader) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] 94ba6345983e90c47270aa33da432bff2657654c 2892 2891 2013-02-06T10:01:50Z Poidevin 11 wikitext text/x-wiki GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. See the test at below * HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee] ** HGNC ListOf Header ** HGNC ListOf HGNC_ID ** HGNC ListOf GeneName ** HGNC ListOf Synonym ** HGNC ListOf SynoTxt ** HGNC Pax6 ** HGNC Pax6 header (within HGNC ListOf Header) * MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse ** MGI ListOf Header ** MGI ListOf MGIID ** MGI ListOf GeneName ** MGI Pax6 MGIID ** MGI MGI:97490 GeneName ** MGI Pax6 ListOfSyn ** MGI MGI:97490 ListOfSyn ** MGI Pax-6 Reference_MgiId ** MGi Pax-6 Reference_GeneName ** MGI Pax6 ** MGI Pax6 header (within HGNC ListOf Header) *MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human ** MGIHGNC ListOf Header ** MGIHGNC ListOf MGIID ** MGIHGNC ListOf HGNCID ** MGIHGNC ListOf MGIGeneName ** MGIHGNC ListOf HGNCGeneName ** MGIHGNC MGI:97490 HGNCID ** MGIHGNC HGNC:8620 MGIID ** MGIHGNC Pax6 ** MGIHGNC Pax6 header (within MGIHGNC ListOf Header) *MouseFromHuman combines these programs ** MouseFromHuman ListOf HumanHeader ** MouseFromHuman ListOf MouseHeader ** MouseFromHuman Pax6 ** MouseFromHuman Pax6 header (within MouseFromHuman ListOf MouseHeader) *HumanFromMouse combines these programs ** HumanFromMouse ListOf HumanHeader ** HumanFromMouse ListOf MouseHeader ** HumanFromMouse Pax6 ** HumanFromMouse Pax6 header (within HumanFromMouse ListOf HumanHeader) *Synonyms **MouseSynonyms Pax6 **HumanSynonyms Pax6 *MGISW integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the link between MgiId, genename and the swissprot for the mouse ** MGISW ListOf Header ** MGISW ListOf MgiId ** MGISW ListOf GeneName ** MGISW MGI:1919200 LesSw ** MGISW MGI:1919200 ** MGISW MGI:1919200 header (within MGISW ListOf Header) ** MGISW Nanog ** MGISW Nanog header (within MGISW ListOf Header) ==Test it== * get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human] * get **Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse] **Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human] b0697fb06fcd94b37ee2d1ded3f621677de12df3 ImAnno 0 1434 2893 2857 2013-03-11T09:44:25Z Ripp 1 /* What about the images */ wikitext text/x-wiki ImAnno is the Image Annotation Tool ==Definition== ''ImAnno'' is a web based annotation tool. It allows the annotation of all kind of images, texts, "concepts" through a web interface. <br/> The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine. ==First Goal of ImAnno== The first goal of ''ImAnno'' was to allow the annotation of thousands of the In Situ Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project]. This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris * [[ImAnno Standard Operation Procedure]] * [[ImAnno Search Tool]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach ==What is stored== One annotation is related to one or several images (or even something else). The images are referenced by local or foreign http links. These links are stored in the database and can be sorted manually. The display of the image is made through these links using the "show image" button. An annotation consists of several annotation fields : <br/> For each annotation field are defined * a title * 2 or more radio buttons with exclusive choice * a keywords select field * a freecomment field The labels of the radio buttons and keywords can be specific to each field. ==What about the images== In some cases the ImAnno annotation can be illustrated with images on which the annotation values are dispalyed through colors. To create an ImAnno set of images : # create a colored image with Powerpoint or Inkscape # use the color ramp according to the tissue order (the fist one 0 is black) # save the file as ImAnnoTissue-organ-body-show-600.png -300 -150 # remove the color ramp and save the same sizes with a yellow background # run Execute.php?ImAnnoCreatetissueFiles$organ 77409b5bc72d6f61458d8365ff6a9e72e40788fa Main Page 0 1279 2894 2859 2013-05-30T14:53:06Z Ripp 1 /* Thématiques et Projets */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] fd433b69b4bfd9e4379292fe576ac76c3e2cfb72 2903 2894 2013-09-03T07:31:27Z Julie 14 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== * ALLOT Alexis allot@unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NGUYEN Hoan nguyen@igbmc.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * WALTER Vincent v.walter@unistra.fr * NEY Anne anne.ney@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 341499a2316ab54d70de6b46a8e64b2744a6eeef 2904 2903 2013-09-03T12:06:21Z Julie 14 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== * ALLOT Alexis allot@unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * WALTER Vincent v.walter@unistra.fr * NEY Anne anne.ney@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] ce37d80bb07630eca5403effb21fef6ee218af7c 2908 2904 2013-10-08T15:00:11Z Ripp 1 /* People */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos joram@hotmail.es * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 75a97d6329e4f70ff223698c92bd1da9f9f71e85 2909 2908 2013-10-08T15:52:04Z Ripp 1 /* People */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] afaf880e3eee701afed538b4c2c74eae32a1de68 2910 2909 2013-10-10T12:52:22Z Ripp 1 /* People */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure tohave the up to date list see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 2fa92b66971a9f6df13d6b332cbe9665816daf79 2911 2910 2013-10-10T12:53:08Z Ripp 1 /* People */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] f28302286e3103c97aa9057eed70e7c85975fc59 2912 2911 2013-10-10T12:55:36Z Ripp 1 /* People */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 2bc488948a952ac0dc65788386db8588947043fc 2913 2912 2013-10-10T12:56:06Z Ripp 1 /* People */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] eb1a5eac50e9a7373884e252d01ad1df1a47e77b 2914 2913 2013-10-11T12:05:09Z Wraff 5 /* LBGI */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 1d37025f128b5b2a473d1e41b5ab830b24185efe 2915 2914 2013-10-11T12:06:36Z Wraff 5 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 0d5fda0aa6688bec27325f0f682f7ca8c548e29a 2918 2915 2013-10-14T15:43:51Z Ripp 1 /* Progiciels */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 9a88e65cfbcf998f3f219d2fd2a2d33686c69ffb 2920 2918 2013-10-15T12:34:17Z Wraff 5 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POLVECHE Hélène polveche.helene@gmail.com * POIDEVIN Laetitia l.poidevin@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 1240af8f334277a46dcb2302a584330562f80454 2921 2920 2013-10-15T12:35:14Z Wraff 5 /* People */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène polveche.helene@gmail.com * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] c8287783b741754c700c304738a43b5c8d5d34be 2928 2921 2013-10-18T09:19:32Z Kchennen 31 /* Outils programmation et Unix */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène polveche.helene@gmail.com * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] e71274ae2254f3874e8727c30d6ff3a6a172d7d3 MicroVesicles 0 1439 2895 2013-05-30T14:55:07Z Ripp 1 New page: Micro Vesicles par Anaïs Nicol wikitext text/x-wiki Micro Vesicles par Anaïs Nicol d3e79684bd4a20b3d179831dbd3e1c6ddcc9de0c String 0 1421 2896 2876 2013-06-27T14:55:45Z Poidevin 11 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]] =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions Filtrage des réseaux: Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition. Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle. NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé. Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM). Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) : exemple : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600 Mais tu n’es pas obligé de remplir chaque champ : 396_1_T récupère les gènes qui s’expriment dans la rétine après RMA 396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA 396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA 396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur : 396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères. NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre : gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument : gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond c4962111a76eaf45a823c0be81e18f242b47854f 2897 2896 2013-06-27T14:57:28Z Poidevin 11 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]] =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions Filtrage des réseaux: Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition. Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle. NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé. Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM). Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) : exemple : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600 Mais tu n’es pas obligé de remplir chaque champ : 396_1_T récupère les gènes qui s’expriment dans la rétine après RMA 396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA 396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA 396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur : 396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères. NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre : gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument : gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 85e0d7150a8032dc0ff381b102b33fc3e0def4ee 2898 2897 2013-06-27T14:58:22Z Poidevin 11 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]] =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions Filtrage des réseaux: Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition. Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle. NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé. Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM). Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) : exemple : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600 Mais tu n’es pas obligé de remplir chaque champ : 396_1_T récupère les gènes qui s’expriment dans la rétine après RMA 396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA 396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA 396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur : 396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères. NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre : gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument : gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 051c3bfb06f211ec0e31e01659da5f753ae3418a 2899 2898 2013-06-27T14:58:35Z Poidevin 11 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]] =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions Filtrage des réseaux: Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition. Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle. NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé. Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM). Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) : exemple : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600 Mais tu n’es pas obligé de remplir chaque champ : 396_1_T récupère les gènes qui s’expriment dans la rétine après RMA 396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA 396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA 396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur : 396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères. NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre : gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument : gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond a2ab986baf06111d43f679c108d129a656aa7da9 2900 2899 2013-06-27T15:00:01Z Poidevin 11 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]] =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions [[Filtrage des réseaux]]: Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition. Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle. NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé. Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM). Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600 Mais tu n’es pas obligé de remplir chaque champ : 396_1_T récupère les gènes qui s’expriment dans la rétine après RMA 396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA 396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA 396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur : 396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères. NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre : gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument : gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond a3467eea6d51cd6cd029967a7070ff1a0cebc272 2901 2900 2013-06-27T15:01:26Z Poidevin 11 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]] =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions [[Filtrage des réseaux]]: Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition. Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle. NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé. Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM). Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600 Mais tu n’es pas obligé de remplir chaque champ : 396_1_T récupère les gènes qui s’expriment dans la rétine après RMA 396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA 396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA 396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur : 396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères. NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre : gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument : gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 206ddb988ab892de3be0e668219edd410df929b8 2902 2901 2013-06-27T15:03:05Z Poidevin 11 /* Gscope StringInteractome */ wikitext text/x-wiki STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms. Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP. Voir aussi ci-dessous comment charger Cytoscape avec les données fournies. S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]] =Gscope StringInteractome= Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par # #accessnum genename NM_177470 Acaa2 NM_010678 Aff3 <source lang='tcl'> setgscoperr gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}} # (for example, see details described below :) gscope puts StringInteractome inputFile . Homo_sapiens 700 </source> ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci) <source lang='tcl'> http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens </source> * FichierDepart (est ici String_essai.txt) * RepertoireParent va contenir un nouveau répertoire ** appelé String_taxid_date qui est créé automatiquement ** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai) * Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc. * SeuilString par défaut 700 * From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc. * WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ Identifiers contient les identifiants String correspondant aux gènes du FichierDepart QueryOnly.string network avec uniquement les gènes du FichierDepart Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ String_essai.tgz le tar gzip de tout ça. String_essai.txt le FichierDepart String_essai_context.txt le contexte dans lequel on a créé cette liste Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart'' WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions '''Filtrage des réseaux:''' Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition. Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle. NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé. Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM). Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600 Mais tu n’es pas obligé de remplir chaque champ : 396_1_T récupère les gènes qui s’expriment dans la rétine après RMA 396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA 396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA 396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur : 396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères. NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre : gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument : gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames =PHP StringInteractome= tout ça est accessible depuis PHP. * par RrFun::Wscope("EVImm", "StringInteractome", $params); params est un array de la forme (on voit ici les valeurs prises par défaut) $params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!) $params["seuil"] = ""; $params["from"] = ""; $params["wtmo"] = ""; $params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String"; Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé. =Cytoscape= On a maintenant tout ce qu'il faut pour entrer dans Cytoscape # File/import network from table WithAny.string # File/import network from table Sandwich.string # File/import network from table QueryOnly.string # import attribute AttributeNode Quand on fait import network il faut : # select file ... # cocher Show text file import options ** Delimiter Tab (enlever Space) ** Show all entries ** Transfert first line as attribute names # Source Interaction prendre column 2 (PNInitial) # Target Interaction prendre column 4 (PNCopain) # Import # Close la fenêtre de baratin Quand on fait import Attributes # Select table ... # Show text file import options ** Delimiter Tab (c'est déjà bon) ** Show all entries ** Transfert first line as attribute names # Import # Close la fenêtre de baratin Avec ça on peut colorier nos gènes # Cliquer sur l'onglet WizMapper # Double-cliquer Node Color (il saute en haut) # Select Value QueryColor # Mapping type Discrete Mapper # Cliquer sur le 1 puis dans sa case vide à droite # Il apparaît trois petits points cliquer dessus pour choisir une couleur Bonne chance ! Raymond 40dea55b47f6d053bac3be9027f8541599fee11b BIRD 0 1313 2905 2826 2013-10-01T07:18:17Z Nguyen 15 wikitext text/x-wiki BIRD System : Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg ==What is the BIRD System== ===BIRD System Overview=== The BIRD System was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements. BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query. The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server. The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine. The first goal of the Bird System is the implementation of the Décrypthon Data Center in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr] ==[[BIRDQL]] Biological Query Language == The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists. In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms. We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). [[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand. see more [[BIRDQL]] [[Category:Bird_project]] 6c9f80b20dab94c8c9f8ad94ceec73f0503a27bf Quel outil utilise quel outil 0 1432 2906 2848 2013-10-02T16:50:08Z Ripp 1 wikitext text/x-wiki voir http://dbgs.lbgi.fr/dbgs/phpRR/lance.php?action=FedFun::qo Quel outil utilise quels outils parmi : * Gscope * PipeAlign * Blast * Ballast * ClustalW * Cluspack * Macsims * KoAnno * GxDb * SM2PH * BlastDatabases * OrthoInspector * BIRD * StringInteractome * ILP * KbmPortal * SqlDatabase * DB2DataWarehouse * TomcatServer * AlexSys * R-library * Modeller * DSSP * I-Mutant * Delphi * SIFT * WebSpherePortal * BioJava * Weka 37f6cd18310fd4f50ef24b7fba310ca763f91ceb 2907 2906 2013-10-02T16:50:42Z Ripp 1 wikitext text/x-wiki voir http://www.lbgi.fr/dbgs/phpRR/lance.php?action=FedFun::qo Quel outil utilise quels outils parmi : * Gscope * PipeAlign * Blast * Ballast * ClustalW * Cluspack * Macsims * KoAnno * GxDb * SM2PH * BlastDatabases * OrthoInspector * BIRD * StringInteractome * ILP * KbmPortal * SqlDatabase * DB2DataWarehouse * TomcatServer * AlexSys * R-library * Modeller * DSSP * I-Mutant * Delphi * SIFT * WebSpherePortal * BioJava * Weka 0ea4ad1088d1261f15e5992f97f380977566d712 Fed Website Architecture 0 1415 2916 2581 2013-10-11T18:17:04Z Ripp 1 wikitext text/x-wiki [[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s). We describe here the architecture of ONE website. Let's call it "'''arthur'''". ==Main concepts== === a relational SQL database=== one database for our Fed instance (by default let's call it "'''arthur'''") ===the fed shared php programs are in following directories=== ** /arthur/phpGB (alias Project) ** /arthur/phpRR ** /arthur/phpLP ===a hierarchical 3 levels tree organisation=== * sections * categories * buds stored as html file with ul and li in /arthur/own/desk/MenuBarBora.php. A page corresponds to the display of a section/categorie/bud. * All buds of the displayed category are clickable * All categories of the displayed section are clickable * All sections are allways available. ===a page is displayed by a centralized .php program=== FedHTMLDocument.php (aujoud'hui encore GenoretHTMLDocument) according to the CSS stored in /arthur/own/css/bora/Bora.css.php Each page is created using the /arthur/own/css/bora/bora.tpl.php model and the hierarchical organization MenuBarBora.php. The bora.tpl.php calls the MenuMaker for all the menus which are dispayed on the page. a1f403da365ce6f9b8c78284bb80c8945d9d889c 2917 2916 2013-10-11T18:18:25Z Ripp 1 /* a page is displayed by a centralized .php program */ wikitext text/x-wiki [[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s). We describe here the architecture of ONE website. Let's call it "'''arthur'''". ==Main concepts== === a relational SQL database=== one database for our Fed instance (by default let's call it "'''arthur'''") ===the fed shared php programs are in following directories=== ** /arthur/phpGB (alias Project) ** /arthur/phpRR ** /arthur/phpLP ===a hierarchical 3 levels tree organisation=== * sections * categories * buds stored as html file with ul and li in /arthur/own/desk/MenuBarBora.php. A page corresponds to the display of a section/categorie/bud. * All buds of the displayed category are clickable * All categories of the displayed section are clickable * All sections are allways available. ===a page is displayed by a centralized .php program=== FedHTMLDocument.php (aujoud'hui encore GenoretHTMLDocument) according to the CSS stored in /arthur/own/css/bora/Bora.css.php Each page is created using the /arthur/own/css/bora/bora.tpl.php model and the hierarchical organization MenuBarBora.php. The bora.tpl.php calls the phpRR/MenuMaker.php to now what to put in the menus. e7bf4aa39ad25f8909ae02e3630395b5ab1c39f4 Vep 0 1440 2919 2013-10-14T16:22:09Z Kchennen 31 New page: Date : 2013/10/14 Author : kchennen == Variant Effect Predictor == wikitext text/x-wiki Date : 2013/10/14 Author : kchennen == Variant Effect Predictor == 9a99d2d594ffd78fb3403c8d11a57aa93f0f5664 2923 2919 2013-10-15T13:11:39Z Kchennen 31 /* Variant Effect Predictor */ wikitext text/x-wiki Date : 2013/10/14 Author : kchennen == [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] == * Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html * Installation on studio with Raymond ** installation in /biolo/vep * Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73) > curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz > cd variant_effect_predictor * Install the API with a local cache in /biolo/vep/cache > perl INSTALL.pl -c /biolo/vep/cache Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP. It will not affect any existing installations of the Ensembl API that you may have. It will also download and install cache files from Ensembl's FTP server. Checking for installed versions of the Ensembl API...done It looks like you already have v73 of the API installed. You shouldn't need to install the API Skip to the next step (n) to install cache files Do you want to continue installing the API (y/n)? 399815698d0f74f24bbc2433a44db4a08511a3a7 2924 2923 2013-10-15T13:14:25Z Kchennen 31 /* Variant Effect Predictor */ wikitext text/x-wiki Date : 2013/10/14 Author : kchennen == [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] == * Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html * Installation on studio with Raymond ** installation in /biolo/vep * Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73) > curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz > cd variant_effect_predictor * Install the API with a local cache in /biolo/vep/cache > perl INSTALL.pl -c /biolo/vep/cache Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP. It will not affect any existing installations of the Ensembl API that you may have. It will also download and install cache files from Ensembl's FTP server. Checking for installed versions of the Ensembl API...done It looks like you already have v73 of the API installed. You shouldn't need to install the API Skip to the next step (n) to install cache files Do you want to continue installing the API (y/n)?y Setting up directories Downloading required files - fetching ensembl - unpacking ./Bio/tmp/ensembl.tar.gz - moving files - fetching ensembl-variation ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (8s) - unpacking ./Bio/tmp/ensembl-variation.tar.gz - moving files - fetching ensembl-functgenomics ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (5s) - unpacking ./Bio/tmp/ensembl-functgenomics.tar.gz - moving files - fetching BioPerl ** GET http://bioperl.org/DIST/BioPerl-1.6.1.tar.gz ==> 200 OK (15s) - unpacking ./Bio/tmp/BioPerl-1.6.1.tar.gz - moving files Testing VEP script - OK! Install local cache for database connections for homo sapiens The VEP can either connect to remote or local databases, or use local cache files. Using local cache files is the fastest and most efficient way to run the VEP Cache files will be stored in /my/home/kchennen/.vep Do you want to install any cache files (y/n)? y Cache directory /my/home/kchennen/.vep does not exists - do you want to create it (y/n)? y Downloading list of available cache files The following species/files are available; which do you want (can specify multiple separated by spaces): 1 : ailuropoda_melanoleuca_vep_73.tar.gz 2 : anas_platyrhynchos_vep_73.tar.gz 3 : anolis_carolinensis_vep_73.tar.gz ... 25 : homo_sapiens_refseq_vep_73.tar.gz 26 : homo_sapiens_vep_73.tar.gz ... ? 25 26 - downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_refseq_vep_73.tar.gz ** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_refseq_vep_73.tar.gz ==> 200 OK (253s) - unpacking homo_sapiens_refseq_vep_73.tar.gz - downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ==> 200 OK (305s) - unpacking homo_sapiens_vep_73.tar.gz Download FASTA files for homo sapiens The VEP can use FASTA files to retrieve sequence data for HGVS notations and reference sequence checks. FASTA files will be stored in /my/home/kchennen/.vep Do you want to install any FASTA files (y/n)? y FASTA files for the following species are available; which do you want (can specify multiple separated by spaces, "0" to install for species specified for cache download): 1 : ailuropoda_melanoleuca 2 : anas_platyrhynchos 3 : ancestral_alleles ... 26 : homo_sapiens ... ? 26 Downloading Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ** GET ftp://ftp.ensembl.org:21/pub/release-73/fasta//homo_sapiens/dna/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ==> 200 OK (99s) Extracting data The FASTA file should be automatically detected by the VEP when using --cache or --offline. If it is not, use "--fasta /my/home/kchennen/.vep/homo_sapiens/73/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa" Success * Configure * create configuration file in /my/home/kchennen/.vep ########################## ## general features flags ########################## force_overwrite 1 verbose 1 species homo_sapiens fork 4 ########################### ## output annotation flags ########################### sift b # the SIFT prediction and score, with both given as prediction(score) polyphen b # the PolyPhen prediction and score regulatory 1 # Look for overlaps with regulatory regions. The script can also call if a variant falls in a high information position within a transcription factor binding site. numbers 1 # Adds affected exon and intron numbering to to output. domains 1 # Adds names of overlapping protein domains to output. terms so ################################ ## ouput indentifications flags ################################ hgvs 1 # Add HGVS nomenclature based on Ensembl stable identifiers to the output. symbol 1 # Adds the gene symbol (e.g. HGNC) (where available) to the output. ccds 1 # Adds the CCDS transcript identifer (where available) to the output. protein 1 # Add the Ensembl protein identifier to the output where appropriate. canonical 1 # Adds a flag indicating if the transcript is the canonical transcript for the gene. biotype 1 # Adds the biotype of the transcript. Not used by default xref_refseq 1 # Output aligned RefSeq mRNA identifier for transcrip ############################# ## Co-located variants flags ############################# gmaf 1 # Add the global minor allele frequency (MAF) from 1000 Genomes Phase 1 data for any existing variant to the output. #maf_1kg 1 # Add MAF from continental populations (AFR,AMR,ASN,EUR) of 1000 Genomes Phase 1 to the output. maf_esp 1 # Include MAF from NHLBI-ESP populations. pubmed 1 # Report Pubmed IDs for publications that cite existing variant. check_alleles 1 # When checking for existing variants, only report a co-located variant if none of the alleles supplied are novel. check_svs 1 # Checks for the existence of structural variants that overlap your input. ##failed 1 # When checking for co-located variants, by default the script will exclude variants that have been flagged as failed. ############################# ## Filtering and QC options ############################# #check_ref 1 # Force the script to check the supplied reference allele against the sequence stored in the Ensembl Core database. #coding_only 1 # Only return consequences that fall in the coding regions of transcripts. no_intergenic 1 # Do not include intergenic consequences in the output. #most_severe 1 # Output only the most severe consequence per variation. #summary 1 # Output only a comma-separated list of all observed consequences per variation. #per_gene 1 # Output only the most severe consequence per gene. filter_common 1 # Shortcut flag for the filters below - this will exclude variants that have a co-located existing variant with global MAF > 0.01 (1%). May be modified using any of the following freq_* filters. * add plugins in /my/home/kchennen/.vep/Plugins 28edb75fdfd80a1b95886dd731771020dcdb5da8 2925 2924 2013-10-15T13:34:33Z Kchennen 31 /* Variant Effect Predictor */ wikitext text/x-wiki Date : 2013/10/14 Author : kchennen == [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] == * Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html * Installation on studio with Raymond ** installation in /biolo/vep * Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73) > curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz > cd variant_effect_predictor * Install the API with a local cache in /biolo/vep/cache > perl INSTALL.pl -c /biolo/vep/cache Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP. It will not affect any existing installations of the Ensembl API that you may have. It will also download and install cache files from Ensembl's FTP server. Checking for installed versions of the Ensembl API...done It looks like you already have v73 of the API installed. You shouldn't need to install the API Skip to the next step (n) to install cache files Do you want to continue installing the API (y/n)?y Setting up directories Downloading required files - fetching ensembl - unpacking ./Bio/tmp/ensembl.tar.gz - moving files - fetching ensembl-variation ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (8s) - unpacking ./Bio/tmp/ensembl-variation.tar.gz - moving files - fetching ensembl-functgenomics ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (5s) - unpacking ./Bio/tmp/ensembl-functgenomics.tar.gz - moving files - fetching BioPerl ** GET http://bioperl.org/DIST/BioPerl-1.6.1.tar.gz ==> 200 OK (15s) - unpacking ./Bio/tmp/BioPerl-1.6.1.tar.gz - moving files Testing VEP script - OK! * Install local cache for database connections for homo sapiens The VEP can either connect to remote or local databases, or use local cache files. Using local cache files is the fastest and most efficient way to run the VEP Cache files will be stored in /biolo/vep/cache Do you want to install any cache files (y/n)? y Cache directory /biolo/vep/cache does not exists - do you want to create it (y/n)? y Downloading list of available cache files The following species/files are available; which do you want (can specify multiple separated by spaces): 1 : ailuropoda_melanoleuca_vep_73.tar.gz 2 : anas_platyrhynchos_vep_73.tar.gz 3 : anolis_carolinensis_vep_73.tar.gz ... 25 : homo_sapiens_refseq_vep_73.tar.gz 26 : homo_sapiens_vep_73.tar.gz ... ? 26 - downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ==> 200 OK (305s) - unpacking homo_sapiens_vep_73.tar.gz Download FASTA files for homo sapiens The VEP can use FASTA files to retrieve sequence data for HGVS notations and reference sequence checks. FASTA files will be stored in /biolo/vep/cache Do you want to install any FASTA files (y/n)? y FASTA files for the following species are available; which do you want (can specify multiple separated by spaces, "0" to install for species specified for cache download): 1 : ailuropoda_melanoleuca 2 : anas_platyrhynchos 3 : ancestral_alleles ... 26 : homo_sapiens ... ? 26 Downloading Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ** GET ftp://ftp.ensembl.org:21/pub/release-73/fasta//homo_sapiens/dna/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ==> 200 OK (99s) Extracting data The FASTA file should be automatically detected by the VEP when using --cache or --offline. If it is not, use "--fasta /biolo/vep/cache/homo_sapiens/73/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa" Success * Configure ** Add plugins *** Download latest [https://github.com/ensembl-variation/VEP_plugins archieve of vep plugins] *** Move all the plugins in the plugin directory /biolo/vep/cache/Plugins ** Create the configuration file vep.ini in /biolo/vep/cache ########################## ## general features flags ########################## force_overwrite 1 verbose 1 species homo_sapiens fork 4 ########################### ## output annotation flags ########################### sift b # the SIFT prediction and score, with both given as prediction(score) polyphen b # the PolyPhen prediction and score regulatory 1 # Look for overlaps with regulatory regions. The script can also call if a variant falls in a high information position within a transcription factor binding site. numbers 1 # Adds affected exon and intron numbering to to output. domains 1 # Adds names of overlapping protein domains to output. terms so ################################ ## ouput indentifications flags ################################ hgvs 1 # Add HGVS nomenclature based on Ensembl stable identifiers to the output. symbol 1 # Adds the gene symbol (e.g. HGNC) (where available) to the output. ccds 1 # Adds the CCDS transcript identifer (where available) to the output. protein 1 # Add the Ensembl protein identifier to the output where appropriate. canonical 1 # Adds a flag indicating if the transcript is the canonical transcript for the gene. biotype 1 # Adds the biotype of the transcript. Not used by default xref_refseq 1 # Output aligned RefSeq mRNA identifier for transcrip ############################# ## Co-located variants flags ############################# gmaf 1 # Add the global minor allele frequency (MAF) from 1000 Genomes Phase 1 data for any existing variant to the output. #maf_1kg 1 # Add MAF from continental populations (AFR,AMR,ASN,EUR) of 1000 Genomes Phase 1 to the output. maf_esp 1 # Include MAF from NHLBI-ESP populations. pubmed 1 # Report Pubmed IDs for publications that cite existing variant. check_alleles 1 # When checking for existing variants, only report a co-located variant if none of the alleles supplied are novel. check_svs 1 # Checks for the existence of structural variants that overlap your input. ##failed 1 # When checking for co-located variants, by default the script will exclude variants that have been flagged as failed. ############################# ## Filtering and QC options ############################# #check_ref 1 # Force the script to check the supplied reference allele against the sequence stored in the Ensembl Core database. #coding_only 1 # Only return consequences that fall in the coding regions of transcripts. no_intergenic 1 # Do not include intergenic consequences in the output. #most_severe 1 # Output only the most severe consequence per variation. #summary 1 # Output only a comma-separated list of all observed consequences per variation. #per_gene 1 # Output only the most severe consequence per gene. filter_common 1 # Shortcut flag for the filters below - this will exclude variants that have a co-located existing variant with global MAF > 0.01 (1%). May be modified using any of the following freq_* filters. d67f03014c665a4db69b7758cb9407a3176b37e6 2926 2925 2013-10-15T13:37:31Z Kchennen 31 /* Variant Effect Predictor */ wikitext text/x-wiki Date : 2013/10/14 Author : kchennen == [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] == * Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html * Installation on studio with Raymond ** installation in /biolo/vep * Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73) > curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz > cd variant_effect_predictor * Install the API with a local cache in /biolo/vep/cache > perl INSTALL.pl -c /biolo/vep/cache Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP. It will not affect any existing installations of the Ensembl API that you may have. It will also download and install cache files from Ensembl's FTP server. Checking for installed versions of the Ensembl API...done It looks like you already have v73 of the API installed. You shouldn't need to install the API Skip to the next step (n) to install cache files Do you want to continue installing the API (y/n)?y Setting up directories Downloading required files - fetching ensembl - unpacking ./Bio/tmp/ensembl.tar.gz - moving files - fetching ensembl-variation ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (8s) - unpacking ./Bio/tmp/ensembl-variation.tar.gz - moving files - fetching ensembl-functgenomics ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (5s) - unpacking ./Bio/tmp/ensembl-functgenomics.tar.gz - moving files - fetching BioPerl ** GET http://bioperl.org/DIST/BioPerl-1.6.1.tar.gz ==> 200 OK (15s) - unpacking ./Bio/tmp/BioPerl-1.6.1.tar.gz - moving files Testing VEP script - OK! * Install local cache for database connections for homo sapiens The VEP can either connect to remote or local databases, or use local cache files. Using local cache files is the fastest and most efficient way to run the VEP Cache files will be stored in /biolo/vep/cache Do you want to install any cache files (y/n)? y Cache directory /biolo/vep/cache does not exists - do you want to create it (y/n)? y Downloading list of available cache files The following species/files are available; which do you want (can specify multiple separated by spaces): 1 : ailuropoda_melanoleuca_vep_73.tar.gz 2 : anas_platyrhynchos_vep_73.tar.gz 3 : anolis_carolinensis_vep_73.tar.gz ... 25 : homo_sapiens_refseq_vep_73.tar.gz 26 : homo_sapiens_vep_73.tar.gz ... ? 26 - downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ==> 200 OK (305s) - unpacking homo_sapiens_vep_73.tar.gz Download FASTA files for homo sapiens The VEP can use FASTA files to retrieve sequence data for HGVS notations and reference sequence checks. FASTA files will be stored in /biolo/vep/cache Do you want to install any FASTA files (y/n)? y FASTA files for the following species are available; which do you want (can specify multiple separated by spaces, "0" to install for species specified for cache download): 1 : ailuropoda_melanoleuca 2 : anas_platyrhynchos 3 : ancestral_alleles ... 26 : homo_sapiens ... ? 26 Downloading Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ** GET ftp://ftp.ensembl.org:21/pub/release-73/fasta//homo_sapiens/dna/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ==> 200 OK (99s) Extracting data The FASTA file should be automatically detected by the VEP when using --cache or --offline. If it is not, use "--fasta /biolo/vep/cache/homo_sapiens/73/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa" Success * Configure ** Add plugins *** Download latest [https://github.com/ensembl-variation/VEP_plugins archieve of vep plugins] *** Move all the plugins in the plugin directory /biolo/vep/cache/Plugins ** Create the configuration file vep.ini in /biolo/vep/cache ########################## ## general features flags ########################## force_overwrite 1 verbose 1 species homo_sapiens fork 4 ########################### ## output annotation flags ########################### sift b # the SIFT prediction and score, with both given as prediction(score) polyphen b # the PolyPhen prediction and score regulatory 1 # Look for overlaps with regulatory regions. The script can also call if a variant falls in a high information position within a transcription factor binding site. numbers 1 # Adds affected exon and intron numbering to to output. domains 1 # Adds names of overlapping protein domains to output. terms so ################################ ## ouput indentifications flags ################################ hgvs 1 # Add HGVS nomenclature based on Ensembl stable identifiers to the output. symbol 1 # Adds the gene symbol (e.g. HGNC) (where available) to the output. ccds 1 # Adds the CCDS transcript identifer (where available) to the output. protein 1 # Add the Ensembl protein identifier to the output where appropriate. canonical 1 # Adds a flag indicating if the transcript is the canonical transcript for the gene. biotype 1 # Adds the biotype of the transcript. Not used by default xref_refseq 1 # Output aligned RefSeq mRNA identifier for transcrip ############################# ## Co-located variants flags ############################# gmaf 1 # Add the global minor allele frequency (MAF) from 1000 Genomes Phase 1 data for any existing variant to the output. #maf_1kg 1 # Add MAF from continental populations (AFR,AMR,ASN,EUR) of 1000 Genomes Phase 1 to the output. maf_esp 1 # Include MAF from NHLBI-ESP populations. pubmed 1 # Report Pubmed IDs for publications that cite existing variant. check_alleles 1 # When checking for existing variants, only report a co-located variant if none of the alleles supplied are novel. check_svs 1 # Checks for the existence of structural variants that overlap your input. ##failed 1 # When checking for co-located variants, by default the script will exclude variants that have been flagged as failed. ############################# ## Filtering and QC options ############################# #check_ref 1 # Force the script to check the supplied reference allele against the sequence stored in the Ensembl Core database. #coding_only 1 # Only return consequences that fall in the coding regions of transcripts. no_intergenic 1 # Do not include intergenic consequences in the output. #most_severe 1 # Output only the most severe consequence per variation. #summary 1 # Output only a comma-separated list of all observed consequences per variation. #per_gene 1 # Output only the most severe consequence per gene. filter_common 1 # Shortcut flag for the filters below - this will exclude variants that have a co-located existing variant with global MAF > 0.01 (1%). May be modified using any of the following freq_* filters. * Creation of an alias vep: aliased to /biolo/vep/variant_effect_predictor.pl --force_overwrite --cache --dir /biolo/vep/cache 8f77d968c3e177d2411f3164ef364439f69822d1 2927 2926 2013-10-15T13:40:53Z Kchennen 31 /* Variant Effect Predictor */ wikitext text/x-wiki Date : 2013/10/14 Author : kchennen == [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] == * Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html === Installation === * Installation on studio with Raymond ** installation in /biolo/vep * Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73) > curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz > cd variant_effect_predictor * Install the API with a local cache in /biolo/vep/cache > perl INSTALL.pl -c /biolo/vep/cache Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP. It will not affect any existing installations of the Ensembl API that you may have. It will also download and install cache files from Ensembl's FTP server. Checking for installed versions of the Ensembl API...done It looks like you already have v73 of the API installed. You shouldn't need to install the API Skip to the next step (n) to install cache files Do you want to continue installing the API (y/n)?y Setting up directories Downloading required files - fetching ensembl - unpacking ./Bio/tmp/ensembl.tar.gz - moving files - fetching ensembl-variation ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (8s) - unpacking ./Bio/tmp/ensembl-variation.tar.gz - moving files - fetching ensembl-functgenomics ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved ** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (5s) - unpacking ./Bio/tmp/ensembl-functgenomics.tar.gz - moving files - fetching BioPerl ** GET http://bioperl.org/DIST/BioPerl-1.6.1.tar.gz ==> 200 OK (15s) - unpacking ./Bio/tmp/BioPerl-1.6.1.tar.gz - moving files Testing VEP script - OK! * Install local cache for database connections for homo sapiens The VEP can either connect to remote or local databases, or use local cache files. Using local cache files is the fastest and most efficient way to run the VEP Cache files will be stored in /biolo/vep/cache Do you want to install any cache files (y/n)? y Cache directory /biolo/vep/cache does not exists - do you want to create it (y/n)? y Downloading list of available cache files The following species/files are available; which do you want (can specify multiple separated by spaces): 1 : ailuropoda_melanoleuca_vep_73.tar.gz 2 : anas_platyrhynchos_vep_73.tar.gz 3 : anolis_carolinensis_vep_73.tar.gz ... 25 : homo_sapiens_refseq_vep_73.tar.gz 26 : homo_sapiens_vep_73.tar.gz ... ? 26 - downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ==> 200 OK (305s) - unpacking homo_sapiens_vep_73.tar.gz Download FASTA files for homo sapiens The VEP can use FASTA files to retrieve sequence data for HGVS notations and reference sequence checks. FASTA files will be stored in /biolo/vep/cache Do you want to install any FASTA files (y/n)? y FASTA files for the following species are available; which do you want (can specify multiple separated by spaces, "0" to install for species specified for cache download): 1 : ailuropoda_melanoleuca 2 : anas_platyrhynchos 3 : ancestral_alleles ... 26 : homo_sapiens ... ? 26 Downloading Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ** GET ftp://ftp.ensembl.org:21/pub/release-73/fasta//homo_sapiens/dna/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ==> 200 OK (99s) Extracting data The FASTA file should be automatically detected by the VEP when using --cache or --offline. If it is not, use "--fasta /biolo/vep/cache/homo_sapiens/73/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa" Success * Configure ** Add plugins *** Download latest [https://github.com/ensembl-variation/VEP_plugins archieve of vep plugins] *** Move all the plugins in the plugin directory /biolo/vep/cache/Plugins ** Create the configuration file vep.ini in /biolo/vep/cache ########################## ## general features flags ########################## force_overwrite 1 verbose 1 species homo_sapiens fork 4 ########################### ## output annotation flags ########################### sift b # the SIFT prediction and score, with both given as prediction(score) polyphen b # the PolyPhen prediction and score regulatory 1 # Look for overlaps with regulatory regions. The script can also call if a variant falls in a high information position within a transcription factor binding site. numbers 1 # Adds affected exon and intron numbering to to output. domains 1 # Adds names of overlapping protein domains to output. terms so ################################ ## ouput indentifications flags ################################ hgvs 1 # Add HGVS nomenclature based on Ensembl stable identifiers to the output. symbol 1 # Adds the gene symbol (e.g. HGNC) (where available) to the output. ccds 1 # Adds the CCDS transcript identifer (where available) to the output. protein 1 # Add the Ensembl protein identifier to the output where appropriate. canonical 1 # Adds a flag indicating if the transcript is the canonical transcript for the gene. biotype 1 # Adds the biotype of the transcript. Not used by default xref_refseq 1 # Output aligned RefSeq mRNA identifier for transcrip ############################# ## Co-located variants flags ############################# gmaf 1 # Add the global minor allele frequency (MAF) from 1000 Genomes Phase 1 data for any existing variant to the output. #maf_1kg 1 # Add MAF from continental populations (AFR,AMR,ASN,EUR) of 1000 Genomes Phase 1 to the output. maf_esp 1 # Include MAF from NHLBI-ESP populations. pubmed 1 # Report Pubmed IDs for publications that cite existing variant. check_alleles 1 # When checking for existing variants, only report a co-located variant if none of the alleles supplied are novel. check_svs 1 # Checks for the existence of structural variants that overlap your input. ##failed 1 # When checking for co-located variants, by default the script will exclude variants that have been flagged as failed. ############################# ## Filtering and QC options ############################# #check_ref 1 # Force the script to check the supplied reference allele against the sequence stored in the Ensembl Core database. #coding_only 1 # Only return consequences that fall in the coding regions of transcripts. no_intergenic 1 # Do not include intergenic consequences in the output. #most_severe 1 # Output only the most severe consequence per variation. #summary 1 # Output only a comma-separated list of all observed consequences per variation. #per_gene 1 # Output only the most severe consequence per gene. filter_common 1 # Shortcut flag for the filters below - this will exclude variants that have a co-located existing variant with global MAF > 0.01 (1%). May be modified using any of the following freq_* filters. * Creation of an alias vep: aliased to /biolo/vep/variant_effect_predictor.pl --force_overwrite --cache --dir /biolo/vep/cache === Usage === * Set environment > setvep vep -i myfile.vcf * usage > vep -i input.vcf -o ouput.vcf > output.log 9e027fa9613d2bb41b74af46602613567f8b41f3 LBGI 0 1280 2922 1915 2013-10-15T12:41:03Z Wraff 5 wikitext text/x-wiki '''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives =Organisation= * Responsable [http://lbgi.fr/~poch Olivier Poch] * Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants) * Le LBGI fait parti du [http://icube.unistra.fr/ Laboratoire ICube] (CNRS UMR 7357) (Avant juillet 2013 le LBGI faisait partie du Département de Biologie et Génomique Structurales ([[DBGS]]) de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104) * [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI =Présentation= Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...). Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs : * la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée. * la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique. =Projets= ==EvolHHuPro== [http://alnitak.u-strasbg.fr/wikili/index.php/EvolHHuPro Evolutionary Histories of the HUman Proteome] The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis. =Présentation en anglais= ==Introduction== The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : # a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases # a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available. ==Results== ===Bioinformatics : development of software and databases=== Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences. In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves # The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, # The development of a statistical model to discriminate CGH outliers that might indicate microevents, # The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. # Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...). In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases. # The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service. # The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods. # The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards. ===Bioanalysis=== The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era. ==Projects== Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics. The bioinformatics projects can be divided into three main centres of interest, # the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips), # the development of federative relational databases in the field of biomedical research, # the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …). This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community. # Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects. # The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data. # Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution. 8abe4297b1c79f4cce8563dbee538db6d431945a Ssh 0 1441 2929 2013-10-18T09:20:12Z Kchennen 31 New page: ===SSH login without password==== wikitext text/x-wiki ===SSH login without password==== 90477114a6fdf232864898d208188f74e0f794d9 2930 2929 2013-10-18T09:20:25Z Kchennen 31 /* SSH login without password= */ wikitext text/x-wiki === SSH login without password === 05ee0e7c85eadfbafd6c2d4d77f2f32e45dda713 2931 2930 2013-10-18T09:29:32Z Kchennen 31 /* SSH login without password */ wikitext text/x-wiki === SSH login without password === It's common to use ssh and scp for communicating and transferring files to and from a server. If you want to auto-login without a password, here's how to setup SSH to use encryption keys to do so. * Run '''ssh-keygen''' to create an encryption key pair, the public and private keys on your PC. You can just hit return for each question. maurice:~> ssh-keygen -t dsa [backup@server ~]$ ssh-keygen -t rsa Generating public/private dsa key pair. Enter file in which to save the key (/home/kchennen/.ssh/id_dsa): Created directory '/home/kchennen/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/kchennen/.ssh/id_dsa. Your public key has been saved in /home/kchennen/.ssh/id_dsa.pub. The key fingerprint is: 93:42:01:20:1a:de:a5:ad:7c:eb:fe:7f:52:e8:a2:a7 kchennen@maurice The key's randomart image is: +--[ DSA 1024]----+ |o ...o. | |oo. + . | |.. o .. | | . .. . | | o .. S . | | . .. o . | | . . . | | . o o . | | .E=.o.o | +-----------------+ Generating public/private rsa key pair. Enter file in which to save the key (/home/backup/.ssh/id_rsa): Created directory '/home/backup/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/backup/.ssh/id_rsa. Your public key has been saved in /home/backup/.ssh/id_rsa.pub. f7ca21af1656e1b18d969c38f95f145e0e8252a5 2932 2931 2013-10-18T09:29:46Z Kchennen 31 /* SSH login without password */ wikitext text/x-wiki === SSH login without password === It's common to use ssh and scp for communicating and transferring files to and from a server. If you want to auto-login without a password, here's how to setup SSH to use encryption keys to do so. * Run '''ssh-keygen''' to create an encryption key pair, the public and private keys on your PC. You can just hit return for each question. maurice:~> ssh-keygen -t dsa [backup@server ~]$ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/home/backup/.ssh/id_rsa): Created directory '/home/backup/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/backup/.ssh/id_rsa. Your public key has been saved in /home/backup/.ssh/id_rsa.pub. 0f8eb4c158c27543d92c5933f3eefddf797f98c2 Ssh 0 1441 2933 2932 2013-10-18T09:34:55Z Kchennen 31 /* SSH login without password */ wikitext text/x-wiki === SSH login without password === It's common to use ssh and scp for communicating and transferring files to and from a server. If you want to auto-login without a password, here's how to setup SSH to use encryption keys to do so. * Run '''ssh-keygen''' to create an encryption key pair, the public and private keys on your PC. You can just hit return for each question. maurice:~> ssh-keygen -t dsa [backup@server ~]$ ssh-keygen -t rsa Generating public/private dsa key pair. Generating public/private dsa key pair. Enter file in which to save the key (/home/kchennen/.ssh/id_dsa): Created directory '/home/kchennen/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/kchennen/.ssh/id_dsa. Your public key has been saved in /home/kchennen/.ssh/id_dsa.pub. The key fingerprint is: 93:42:01:20:1a:de:a5:ad:7c:eb:fe:7f:52:e8:a2:a7 kchennen@maurice The key's randomart image is: +--[ DSA 1024]----+ |o ...o. | |oo. + . | |.. o .. | | . .. . | | o .. S . | | . .. o . | | . . . | | . o o . | | .E=.o.o | +-----------------+ Generating public/private rsa key pair. Enter file in which to save the key (/home/backup/.ssh/id_rsa): Created directory '/home/backup/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/backup/.ssh/id_rsa. Your public key has been saved in /home/backup/.ssh/id_rsa.pub. 026a38499dff5436f2b7f74701b59bdbab27544f 2934 2933 2013-10-18T10:15:05Z Kchennen 31 /* SSH login without password */ wikitext text/x-wiki === SSH login without password === Date: 2013/10/18 Author: kchennen It's common to use ssh and scp for communicating and transferring files to and from a server. If you want to auto-login without a password, here's how to setup SSH to use encryption keys to do so. '''Procedure if your login account is on ena:''' * Run '''ssh-keygen''' to create an encryption key pair, the public and private keys on your PC. You can just hit return for each question. In this example the user is "toto" on the machine "mon_ordi" mon_ordi:~> cd mon_ordi:~> ssh-keygen -t dsa Generating public/private dsa key pair. Enter file in which to save the key (/home/toto/.ssh/id_dsa): Created directory '/home/toto/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/toto/.ssh/id_dsa. Your public key has been saved in /home/toto/.ssh/id_dsa.pub. The key fingerprint is: 93:42:01:20:1a:de:a5:ad:7c:eb:fe:7f:52:e8:a2:a7 toto@mon_ordi The key's randomart image is: +--[ DSA 1024]----+ |o ...o. | |oo. + . | |.. o .. | | . .. . | | o .. S . | | . .. o . | | . . . | | . o o . | | .E=.o.o | +-----------------+ * Move public key to a distant machine cat .ssh/id_dsa.pub | ssh toto@ena \ "cat - >>.ssh/authorized_keys" * ssh connection without password ssh ena 45040ffd315afa86c3228fdfb5ed45f3f652e1d4 GxDb 0 1426 2935 2851 2013-10-22T11:56:18Z Ripp 1 wikitext text/x-wiki GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp voir le wiki privé [http://lbgi.fr/lbgiki/index.php/GxDb http://lbgi.fr/lbgiki/index.php/GxDb] See the [http://gx.lbgi.fr GxDb website] ==Aim of GxDb== During the recent years gene expression profiling through transcriptomics has become an essential tool in many domains of research. This technique generates large quantities of data that may be exploited in many different ways allowing to reveal different aspects of the nature of the original data. The analysis and the meta- analysis of such data still remain quite laborious and often are not easily accessible to biologists. In this context, we develop an innovative platform, called GxDb, in order to offer an integrative tool for the analysis of transcriptomics data analysis. This platform is accessible through a secured web- portal and allows convenient upload of data, storage in a relational database and running many treatment and analysis procedures automatically. At the user interface, data query and analysis is greatly facilitated through the various modules and options for graphical display. GxDb clearly extends the opportunity to compare results from different treatment and analysis procedures (including human expert analysis) and/or different experiments. This also gives to the biologist tools for investigating and understanding the strengths and weaknesses of the data-treatments or combination thereof used during analysis, thus allowing to choose the best approach and tools for a given experimental question or a given gene. ==Public Datasets in GxDb== * MouseGeneAtlasV3 High-throughput gene expression profiling has become an important tool for investigating transcriptional activity in a variety of biological samples. To date, the vast majority of these experiments have focused on specific biological processes and perturbations. Here, we profiled gene expression from a diverse array of normal tissues, organs, and cell lines in mice. * HumanGeneAtlas The tissue-specific pattern of mRNA expression can indicate important clues about gene function. High-density oligonucleotide arrays offer the pportunity to examine patterns of gene expression on a genome scale. Toward this end, we have designed custom arrays that interrogate the expression of the vast majority of rotein-encoding human and mouse genes and have used them to profile a panel of 79 human and 61 mouse tissues. The resulting data set provides the expression patterns for housands of predicted genes, as well as known and poorly characterized genes, from mice and humans. We have explored this data set for global trends in gene expression, valuated commonly used lines of evidence in gene prediction methodologies, and investigated patterns indicative of chromosomal organization of transcription. We describe undreds of regions of correlated transcription and show that some are subject to both tissue and parental allele-specific expression, suggesting a link between spatial xpression and imprinting. Keywords: different tissues. * ALL Gene expression profiles were examined in 33 adult patients with T-cell acute lymphocytic leukemia (T-ALL) different immunophenotypic characteristics: 1,T2,T3,T4 and Tnc(incomplete phenotype) * HumanBreastCancer Human breast cancer cell line MCF-7 is usually sensitive to chemotherapy drug BMS-554417, an insulin receptor (IR) and insulin-like growth factor receptor (IGFR) inhibitor. However, through step-wise increase in BMS-554417 doses in culture media, we were able able to screen and select a single MCF-7 clone that is BMS-554417 resistant. It is cross resistant to BMS-536924. This new line of MCF-7 cells was named as MCF-7R4. The transcriptome profiling of both MCF-7 and MCF-7R4 was performed sing Affymetrix HG-U133 plus2.0 GeneChip arrays. * HumanEmbryo The process of early development of mammals is subtly and accurately controlled by the regulation networks of embryo cells. Time course expression data measured at different stages during early embryo development process can give us valuable information by revealing the dynamic expression patterns of genes in genome wide scale. In this study, Human embryo expression data were generated at one cell stage, two cell stage, four cell stage, eight cell stage, morula, and blastocyst. ==Data processing== Data obtained at the level of .CEL files are analysed with 6 different normalization softwares : * RMA * gcRMA * dChip * MAS5 * VSN * Plier using programs developped with the R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. All the experiments in GxDb are clustered using 3 clustering methods from the [[Cluspack]] package * km_dpc K-means Density of Point Clustering * mm_aic Mixure Model Akaike’s Information Criterion * mm_bic Mixure Model Bayesian Information Criterion ==Architecture== The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data. GxDb uses open-source tools. 85fc354cc14dd447aee124dd30c627efa3703b35 Main Page 0 1279 2936 2928 2013-10-22T15:52:29Z Ripp 1 /* LBGI */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène polveche.helene@gmail.com * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] ce02b618f6878c81957bec3d7711c8a559e6a4da 2937 2936 2013-10-22T15:53:54Z Ripp 1 /* LBGI */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène polveche.helene@gmail.com * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 8c89f19a59c577d9ae7549a1331c69bf4f213725 2938 2937 2013-10-29T12:44:38Z Wraff 5 /* People */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène hpolveche@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] cff3ab1bc0914deff793d9f0e09688974409361e 2962 2938 2014-04-04T20:35:54Z Nguyen 15 /* Progiciels */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène hpolveche@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor * [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]] ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 59bb3250f0a6130f612bbecfdff8580ab5919e7d ImAnno 0 1434 2939 2893 2013-11-26T09:13:23Z Ripp 1 /* What about the images */ wikitext text/x-wiki ImAnno is the Image Annotation Tool ==Definition== ''ImAnno'' is a web based annotation tool. It allows the annotation of all kind of images, texts, "concepts" through a web interface. <br/> The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine. ==First Goal of ImAnno== The first goal of ''ImAnno'' was to allow the annotation of thousands of the In Situ Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project]. This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris * [[ImAnno Standard Operation Procedure]] * [[ImAnno Search Tool]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach ==What is stored== One annotation is related to one or several images (or even something else). The images are referenced by local or foreign http links. These links are stored in the database and can be sorted manually. The display of the image is made through these links using the "show image" button. An annotation consists of several annotation fields : <br/> For each annotation field are defined * a title * 2 or more radio buttons with exclusive choice * a keywords select field * a freecomment field The labels of the radio buttons and keywords can be specific to each field. ==What about the images== In some cases the ImAnno annotation can be illustrated with images on which the annotation values are displayed through colors. To create an ImAnno set of images : # create a colored image with Powerpoint or Inkscape # use the color ramp according to the tissue order (the fist one 0 is black) # save the file as ImAnnoTissue-organ-body-show-600.png -300 -150 # remove the color ramp and save the same sizes with a yellow background # run Execute.php?ImAnnoCreatetissueFiles$organ Another interesting tools is [[DecoreTree]] allowing the annotation and coloration of the phylogenic trees created by the Itol tools ([http://itol.embl.fr http://itol.embl.fr]). 505786621a7f74e09310fef933597723ac8555b5 2942 2939 2014-02-24T15:09:06Z Ripp 1 wikitext text/x-wiki ImAnno is the Image Annotation Tool ==Definition== ''ImAnno'' is a web based annotation tool. It allows the annotation of all kind of images, texts, "concepts" through a web interface. <br/> The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine. ==First Goal of ImAnno== The first goal of ''ImAnno'' was to allow the annotation of thousands of the ''In Situ'' Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project]. This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris * [[ImAnno Standard Operation Procedure]] * [[ImAnno Search Tool]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach ==What is stored== One annotation is related to one or several images (or even something else). The images are referenced by local or foreign http links. These links are stored in the database and can be sorted manually. The display of the image is made through these links using the "show image" button. An annotation consists of several annotation fields : <br/> For each annotation field are defined * a title * 2 or more radio buttons with exclusive choice * a keywords select field * a freecomment field The labels of the radio buttons and keywords can be specific to each field. ==What about the images== In some cases the ImAnno annotation can be illustrated with images on which the annotation values are displayed through colors. To create an ImAnno set of images : # create a colored image with Powerpoint or Inkscape # use the color ramp according to the tissue order (the fist one 0 is black) # save the file as ImAnnoTissue-organ-body-show-600.png -300 -150 # remove the color ramp and save the same sizes with a yellow background # run Execute.php?ImAnnoCreatetissueFiles$organ Another interesting tools is [[DecoreTree]] allowing the annotation and coloration of the phylogenic trees created by the Itol tools ([http://itol.embl.fr http://itol.embl.fr]). c3478b913f18483ad55a977fd5e4c047bc80ffb3 2975 2942 2014-09-19T08:03:53Z Ripp 1 wikitext text/x-wiki ImAnno is the Image Annotation Tool ==Definition== ''ImAnno'' is a web based annotation tool. It allows the annotation of all kind of images, texts, "concepts" through a web interface. <br/> The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine. ==First Goal of ImAnno== The first goal of ''ImAnno'' was to allow the annotation of thousands of the ''In Situ'' Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project]. This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris * [[ImAnno Standard Operation Procedure]] * [[ImAnno Search Tool]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach ==What is stored== One annotation is related to one or several images (or even something else). The images are referenced by local or foreign http links. These links are stored in the database and can be sorted manually. The display of the image is made through these links using the "show image" button. An annotation consists of several annotation fields : <br/> For each annotation field are defined * a title * 2 or more radio buttons with exclusive choice * a keywords select field * a freecomment field The labels of the radio buttons and keywords can be specific to each field. ==What about the images== In some cases the ImAnno annotation can be illustrated with images on which the annotation values are displayed through colors. To create an ImAnno set of images : # create a colored image with Powerpoint or Inkscape # use the color ramp according to the tissue order (the fist one 0 is black) # save the file as ImAnnoTissue-organ-body-show-600.png -300 -150 # remove the color ramp and save the same sizes with a yellow background # run Execute.php?ImAnnoCreatetissueFiles$organ Another interesting tools is [[DecoreTree]] allowing the annotation and coloration of the phylogenic trees created by the Itol tools ([http://itol.embl.fr http://itol.embl.fr]). ==Images Illustrations Photos== Especially for the Ear Raymond Romand took 11000 Microscope Images showing the gene expression. The php programs refere to thes images through the coded directory ImAnno/Illustrations-$cadre-$organ see function IllustrationsDir ($cadre="", $organ="", $getWhat="" and in /home/ripp/imanno/ImAnno we have the link Illustrations-3-3 -> /genomics/link/ImagesRomand/Version2012/JPEG 8a59f8de40c5d6bd7e2b965a2e0daf8ade068fb2 2976 2975 2014-09-19T08:05:44Z Ripp 1 /* Images Illustrations Photos */ wikitext text/x-wiki ImAnno is the Image Annotation Tool ==Definition== ''ImAnno'' is a web based annotation tool. It allows the annotation of all kind of images, texts, "concepts" through a web interface. <br/> The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine. ==First Goal of ImAnno== The first goal of ''ImAnno'' was to allow the annotation of thousands of the ''In Situ'' Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project]. This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris * [[ImAnno Standard Operation Procedure]] * [[ImAnno Search Tool]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach ==What is stored== One annotation is related to one or several images (or even something else). The images are referenced by local or foreign http links. These links are stored in the database and can be sorted manually. The display of the image is made through these links using the "show image" button. An annotation consists of several annotation fields : <br/> For each annotation field are defined * a title * 2 or more radio buttons with exclusive choice * a keywords select field * a freecomment field The labels of the radio buttons and keywords can be specific to each field. ==What about the images== In some cases the ImAnno annotation can be illustrated with images on which the annotation values are displayed through colors. To create an ImAnno set of images : # create a colored image with Powerpoint or Inkscape # use the color ramp according to the tissue order (the fist one 0 is black) # save the file as ImAnnoTissue-organ-body-show-600.png -300 -150 # remove the color ramp and save the same sizes with a yellow background # run Execute.php?ImAnnoCreatetissueFiles$organ Another interesting tools is [[DecoreTree]] allowing the annotation and coloration of the phylogenic trees created by the Itol tools ([http://itol.embl.fr http://itol.embl.fr]). ==Images Illustrations Photos== Especially for the Ear Raymond Romand took 11000 Microscope Images showing the gene expression. The php programs refere to thes images through the function IllustrationsDir function IllustrationsDir ($cadre="", $organ="", $getWhat="") is mainly the coded directory ImAnno/Illustrations-$cadre-$organ and in /home/ripp/imanno/ImAnno we have the link (for Cadre=3 Organ=3) Illustrations-3-3 -> /genomics/link/ImagesRomand/Version2012/JPEG 3d3e0c0e364134f12fb4aaa638854cdd5c5eb5dd DecoreTree 0 1442 2940 2013-11-26T09:41:01Z Ripp 1 New page: DecoreTree est un outil web quipermet l'annotation et la colorisation des arbres phylogéniques créés par Itol. ===Historique de la génèse de DecoreTree=== J'avais fait des arbres ave... wikitext text/x-wiki DecoreTree est un outil web quipermet l'annotation et la colorisation des arbres phylogéniques créés par Itol. ===Historique de la génèse de DecoreTree=== J'avais fait des arbres avec Itol et je voulais les mettre en couleur ... Itol le permet mais ça ne marche pas bien, les fontes sont pas bonnes, etc. Itol permet l'exportation et le rapatriement du fichier SVG contenant le dessin. J'ai commencé à bidouillé ce fichier pour pouvoir l'afficher correctement. Puis j'ai développé des fonctions Javascript pour le faire à l'écran. Au 26 novembre 2013 on en est à : * un fichier decoretree_trululu.html contient les fonctions Javascript et le texte SVG décrivant l'arbre. * je respecte à peu près l'arbre d'origine de Itol. ** il me semble que je modifie la première ligne ??? pour une histore de viewbox ** on peut aussi rajouter des images ou du texte (les heatmaps par exemple) * à la fin il faut mettre la div de mise à hour et de coloration il faudra modifier tout ça pour inclure un fichier itol .svg localisé ailleurs ... A+ Raymond e9635eb2fc2541b701d19fccffc556c53d889d00 2941 2940 2013-11-26T09:41:29Z Ripp 1 wikitext text/x-wiki DecoreTree est un outil web qui permet l'annotation et la colorisation des arbres phylogéniques créés par Itol. ===Historique de la génèse de DecoreTree=== J'avais fait des arbres avec Itol et je voulais les mettre en couleur ... Itol le permet mais ça ne marche pas bien, les fontes sont pas bonnes, etc. Itol permet l'exportation et le rapatriement du fichier SVG contenant le dessin. J'ai commencé à bidouillé ce fichier pour pouvoir l'afficher correctement. Puis j'ai développé des fonctions Javascript pour le faire à l'écran. Au 26 novembre 2013 on en est à : * un fichier decoretree_trululu.html contient les fonctions Javascript et le texte SVG décrivant l'arbre. * je respecte à peu près l'arbre d'origine de Itol. ** il me semble que je modifie la première ligne ??? pour une histore de viewbox ** on peut aussi rajouter des images ou du texte (les heatmaps par exemple) * à la fin il faut mettre la div de mise à hour et de coloration il faudra modifier tout ça pour inclure un fichier itol .svg localisé ailleurs ... A+ Raymond ce40d93b588a67d9ba960fb308931554af7824d0 ImAnno Search Tool 0 1437 2943 2875 2014-02-24T15:13:39Z Ripp 1 wikitext text/x-wiki ImAnno provides a set of tools to query the database. ==ImAnno Search Tools== Several searches can be done ===By GeneName, Freetext or SelectComments=== # search by GeneName. You get the corresponding AnnotAct # Search in freetext and select comments ===With the Annotacts Search Tools=== # Go to the AnnotActs SearchTool clicking the button # First, select some values to define your sieve (within one line we use the union operator) # Select the AND or OR value to do an intersection or a union between lines # Then click on '''Search''' to display the result # Click on '''Save''' to save your sieve in order to do the same Annotact Search in the future # Click on '''See all sieves''' to view all stored sieves ** you can edit or delete your sieves ** check on the right side and click on the Correlation button to see the correlations between the seeves ===With the ImAnno PipeWork=== # With the ImAnnoEarGeneListsWithDiaVenn [[PipeWork]] you can mix lists from ImAnno, EGE (the Ear Gene Expression data from Sajan) and gene lists from external website such as Jax, ihr, Sanger. # It allows also to create Venn's Diagrams with [http://alnitak.u-strasbg.fr/lbgiki/index.php/DiaVenn DiaVenn] * Query by Genename * [[ImAnnoSieves]] * [[ImAnnoDoOnList]] * [[ImAnnoCluspack]] 50696cf89df11ccbb8362fea281041e3a9fb431d 2944 2943 2014-02-24T15:17:08Z Ripp 1 wikitext text/x-wiki ImAnno provides a set of tools to query the database. ==ImAnno Search Tools== Several searches can be done ===By GeneName, Freetext or SelectComments=== # search by GeneName. You get the corresponding AnnotAct # Search in freetext and select comments ===With ImAnno Sieves=== # Go to the AnnotActs SearchTool clicking the button # First, select some values to define your sieve (within one line we use the union operator) # Select the AND or OR value to do an intersection or a union between lines # Then click on '''Search''' to display the result # Click on '''Save''' to save your sieve in order to do the same Annotact Search in the future # Click on '''See all sieves''' to view all stored sieves ** you can edit or delete your sieves ** check on the right side and click on the Correlation button to see the correlations between the seeves ===With the ImAnno PipeWork=== # With the ImAnnoEarGeneListsWithDiaVenn [[PipeWork]] you can mix lists from ImAnno, EGE (the Ear Gene Expression data from Sajan) and gene lists from external website such as Jax, ihr, Sanger. # It allows also to create Venn's Diagrams with [http://alnitak.u-strasbg.fr/lbgiki/index.php/DiaVenn DiaVenn] c80641615ffd47aed1e709c62bd9d1a22223d24e 2945 2944 2014-02-24T15:21:46Z Ripp 1 wikitext text/x-wiki ImAnno provides a set of tools to query the database. ==ImAnno Search Tools== Several searches can be done ===By GeneName, Freetext or SelectComments=== # search by GeneName. You get the corresponding AnnotAct # Search in freetext and select comments ===With ImAnno Sieves=== # Go to the AnnotActs SearchTool clicking the button # First, select some values to define your sieve (within one line we use the union operator) # Select the AND or OR value to do an intersection or a union between lines # Then click on '''Search''' to display the result # Click on '''Save''' to save your sieve in order to do the same Annotact Search in the future # Click on '''See all sieves''' to view all stored sieves ** you can edit or delete your sieves ** check on the right side and click on the Correlation button to see the correlations between the seeves ===With the ImAnno PipeWork=== # With the ImAnnoEarGeneListsWithDiaVenn [[PipeWork]] you can mix lists from ImAnno, EGE (the Ear Gene Expression data from Sajan) and gene lists from external website such as Jax, ihr, Sanger. # It allows also to create Venn's Diagrams with [http://www.lbgi.fr/lbgiki/index.php/DiaVenn DiaVenn] 6a60f97af31cfc21b0b928839e416a242fe5134c BIRD Data Access Protocol 0 1396 2946 2867 2014-03-10T08:54:21Z Nguyen 15 /* Simple Services-Bank ID */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get EST http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: in construction ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 464a1d575a5bdbc0c717ccbdeb09f366e811bc38 2947 2946 2014-03-10T08:55:32Z Nguyen 15 /* Simple Services-Bank ID */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===WEB Server=== Beta version: in construction ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 315f037af784aa897d6074206931805c45f37dc0 2948 2947 2014-03-10T08:56:10Z Nguyen 15 /* WEB Server */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] c3bf47c95860ae92aaac7081033a608296c08af1 2949 2948 2014-03-10T08:57:34Z Nguyen 15 /* Simple Services-Bank ID */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Data Selection by [[BIRDQL]] Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] d12fe016aa65ce209ec8bd79bcb658cf17520092 2953 2949 2014-03-10T09:09:01Z Nguyen 15 /* Data Selection by BIRDQL Service */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 28bd26564c79f746bcbfd843127d505fbbeb26a6 2954 2953 2014-03-10T09:09:26Z Nguyen 15 /* BIRD Data Access Protocol */ wikitext text/x-wiki ==BIRD Data Access Protocol== ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===Data Selection by [[BIRDQL]] Query Engine Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] fe7522889df80ba7ea7865d26833715939244ff1 2955 2954 2014-03-10T09:11:52Z Nguyen 15 /* BIRD Data Access Protocol */ wikitext text/x-wiki ==BIRD Data Access Protocol for Data-Intensive Applications== ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===Data Selection by [[BIRDQL]] Query Engine Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 3ab8c76b62b0f0b40bade56f4210df3db454759d 2956 2955 2014-03-10T09:12:17Z Nguyen 15 /* BIRD Data Access Protocol for Data-Intensive Applications */ wikitext text/x-wiki ==BIRD Data Access Protocol for Data-Intensive Applications == ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===Data Selection by [[BIRDQL]] Query Engine Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB UniProt --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 38641746d397fa7963782be0acca3d9393a3bfe8 2957 2956 2014-03-10T09:16:18Z Nguyen 15 /* API BIRD */ wikitext text/x-wiki ==BIRD Data Access Protocol for Data-Intensive Applications == ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===Data Selection by [[BIRDQL]] Query Engine Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB MyBank --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB UNIPROT WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 33d57ece914c2f482978786b845a4209d520887c 2958 2957 2014-03-10T09:16:32Z Nguyen 15 /* PhP */ wikitext text/x-wiki ==BIRD Data Access Protocol for Data-Intensive Applications == ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===Data Selection by [[BIRDQL]] Query Engine Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB MyBank --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB MYBANK WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch"; String mybioql="ID * DB DB \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 17bbc80c4da04e4262e06a0812c4a8598bbd8710 2959 2958 2014-03-10T09:17:22Z Nguyen 15 /* Java */ wikitext text/x-wiki ==BIRD Data Access Protocol for Data-Intensive Applications == ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===Data Selection by [[BIRDQL]] Query Engine Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB MyBank --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB MYBANK WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://kbm.u-strasbg.fr:8080/birdsnp/bsearch"; String mybioql="ID * DB MyBANK \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] bf897128cbc8244d95a114f72b83c0060c902556 2960 2959 2014-03-10T09:17:41Z Nguyen 15 /* PhP */ wikitext text/x-wiki ==BIRD Data Access Protocol for Data-Intensive Applications == ===Simple Services-Bank ID=== Service : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat> Example 1: get dbsnp by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268 Example 2: get dbsnp genotype by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268 Example 3: get dbsnp genotype population by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371 Example 4: get dbsnp genotype individual by ID http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867 Example 5: get RefSeq Protein http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta Example 6: get Protein : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456 Example 7: get PDB : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS Example 8: get Fasta : http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta ===Data Selection by [[BIRDQL]] Query Engine Service=== Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available: # <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source> # <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source> #* Example: #**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source> #**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source> # BIRD-QL Editor (in pres). #*User can use this engine for intensive computation, download [birdql cmd]. #*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]). ===API JAVA - BIRDQL Client=== The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats. The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API. BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API. ====API BIRD==== Import org.igbmc.bird.* Class ExampleUtilisationAPI { InterfactDB birddb = new InterfaceDB(“my-bird”) // BIRD-QL String birdql = ” ID * DB MyBank --WH OS contains "Mus mus" --WH OC contains "Eukaryota" & not "Metazoa" --FM OID” Vector OID=birddb.queryengine.run(birdql); For { i=1 to OID.size() } { // result treatment UniProt obj=(UniProt)birddb.getObject(OID[i]); …. } ====PhP & Java Connection to BIRD HTTP Post ==== =====PhP===== <?php function executeBIRDQuery($params=array()) { $data = http_build_query($params); $targetWebserviceUrl = 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch'; $options = array('http' => array( 'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i 'max_redirects' => 10, // stop after 10 redirects 'timeout' => 60, // timeout on response 'method' => 'POST', 'header' => "Content-type: application/x-www-form-urlencoded\r\n" ."Content-Length: " . strlen($data) . "\r\n", 'content' => $data )); $context = stream_context_create($options); return file_get_contents($targetWebserviceUrl, false, $context); } $bql = <<<EOT ID * DB MYBANK WH TEXT CONTAINS "polymerase" LM 10 FM FASTA EOT; echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql)); ?> =====Java===== /** download httpclient from http://hc.apache.org/downloads.cgi**/ import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.methods.PostMethod; //bird server String url = "http://kbm.u-strasbg.fr:8080/birdsnp/bsearch"; String mybioql="ID * DB MyBANK \n" + "WH TEXT CONTAINS \"DMD\" \n"+ "LM 100 \n"+ "FM FASTA \n"; PostMethod postMethod = new PostMethod(url); client.setConnectionTimeout(300); // post parameters: service="birdql" & query="...." postMethod.addParameter("service","birdql"); postMethod.addParameter("query",mybioql); // running birdql query int statusCode1 = client.executeMethod(postMethod); // get results String result= postMethod.getResponseBodyAsString(); postMethod.releaseConnection(); ====BirdHttpClient==== A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here]. [[Category:Bird_project]] 5dd632887d2159d783283111d9da28291a082602 BIRDQL 0 1395 2950 2874 2014-03-10T09:02:13Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/]. The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Examples below also show how to use the BIRD-QL syntax. '''Example ''': simple query, Full Text search ID * DB MSV3d WH TEXT contains "DMD" FD ID LM 100 FM FASTA Result // '''Example ''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... // '''Example ''': DBSNP '''Example ''': get DBSNP in XML by ID // ID 268 DB DBSNP find snp by position // ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example ''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example ''': find snp by position and reference sequence (GRCh37.p5) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i") FM FLAT // // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] e15fe8e6396fb68e98ba7744ee03c508d72ac246 2951 2950 2014-03-10T09:02:30Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/]. The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Examples below also show how to use the BIRD-QL syntax. '''Example ''': simple query, Full Text search ID * DB MSV3d WH TEXT contains "DMD" FD ID LM 100 FM FASTA Result // '''Example ''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... // '''Example ''': DBSNP '''Example ''': get DBSNP in XML by ID // ID 268 DB DBSNP find snp by position // ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example ''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example ''': find snp by position and reference sequence (GRCh37.p5) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i") FM FLAT // // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] d63ecc47787dd068ee7683f84bb060a070953dd5 2952 2951 2014-03-10T09:04:26Z Nguyen 15 /* BIRDQL example */ wikitext text/x-wiki ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/]. The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts. Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms. We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...). BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg. Data can be selected with [[BIRD Data Access Protocol]] ===BIRDQL Grammar === ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]] WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n> WH PATTERN <function SequencePattern() > WH PATTERN <function DiagonalMolecule()> WH PATTERN <function InteractionProtein()> WH PATTERN <function AssociationRule()> WH SQLNative select from ... FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)> OF <OFFSET, Default OF=0> LM <number of maximum display> FM <Fasta/Flat/Xml/CSV/Simple/Object/OID> [[Image:birdoverivew.jpg]] ===BIRDQL example=== Data can be selected with [[BIRD Data Access Protocol]] Examples below also show how to use the BIRD-QL syntax. '''Example ''': simple query, Full Text search ID * DB MSV3d (Missense Variant Database) WH TEXT contains "DMD" FD ID LM 100 FM JSON Result // '''Example ''': simple query, search and fasta format generation ID * DB UNIPROT WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human") FD AC, ID,DE,OX,SQ LM 100 FM FASTA Result >Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382 MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI... // '''Example ''': DBSNP '''Example ''': get DBSNP in XML by ID // ID 268 DB DBSNP find snp by position // ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i") LM 1000 FM FLAT '''Example ''': find snp by position ID * DB DBSNP WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i") FM FLAT // '''Example ''': find snp by position and reference sequence (GRCh37.p5) ID * DB DBSNP WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i") FM FLAT // // ID * DB UNIPROT WH TEXT contains "histone" & not "homo sapiens" FD AC,DE,OS LM 3 FM FLAT // ID * DB UNIPROT WH TEXT contains not "homo sapiens" FD AC,DE,OS LM 3 '''Example 2''': complex query, GBFULL=EST+ WGS +Release +New ID * DB GBFULL WH OC Contains "Eukaryote" WH DR Contains "GO" WH GENE contains "GF100027" FM FASTA The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology. '''Example 3''': mining in GENBANK EST ID * DB GBEST WH TISSUE_TYPE contains "retina" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 4''': Mining in GENBANK EST ID CJ133635,CJ133593,CJ133659 DB GBEST WH DE contains "AMINOTRANSFERASE" WH OC contains "Eukaryota" & not "Metazoa" WH TISSUE_TYPE contains "retina" FD AC,DE,OX,OC,tissue_type,dev_stage,chr FM FLAT '''Example 5''': Mining in EST ID * DB GBEST WH TISSUE_TYPE contains "colon" WH DEV_STAGE contains "adult" LM 100 FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os FM FLAT '''Example 6''': Mining In PDB ID * DB PDB WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON" LM 10 FM FASTA // ID * DB PDB WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM FASTA // ID * DB PDB WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FUZZY 100 LM 100 FM SIMPLE // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 LM 10 FM FLAT // ID * DB PDB WH CL contains "METAL BINDING PROTEIN" WH DE contains "LACTOFERRIN" WH FUNCTION Diagnonal3D()>125 FD GET_COUNT FM FLAT '''Example 7''': Get GENE ONTOLOGY or DBREF ID Q32437 DB UNIPROT FD AC,DR(GO) // ID Q34215 DB UNIPROT FD AC,DR(InterPro) >>Result: AC Q32437; DR GO; GO:0009507; C:chloroplast; IEA:InterPro. DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW. ...... // AC Q34215; DR Pfam; PF00033; Cytochrom_B_N; 1. [[Category:Bird_project]] 261095fe2d29c59342aad144fe3c1e7240a0e3e9 NeoPipe 0 1443 2961 2014-04-04T14:58:18Z Nguyen 15 New page: NeoPipe wikitext text/x-wiki NeoPipe fc64df4d792c04ec3f4eb612f28a9a99ef0c3e21 Neopipe 0 1444 2963 2014-04-04T20:36:05Z Nguyen 15 New page: Neopipe wikitext text/x-wiki Neopipe a3eeb0c9473e3a04e6b8ae8c606fc0df325962f6 2964 2963 2014-04-08T09:52:18Z Nguyen 15 wikitext text/x-wiki Le NeoPipe est uniquement installé sur '''studio''' pour le moment. =Informations= *'''Nom''' : NeoPipe *'''Description''' : A new toolkit for protein family analysis *'''Développeur''' : LBGI-IGBMC *'''Crédits''' : FRISBIS/INSTRUCT *'''Dernière version''' : 1.0.0 *'''Date de dernière version''' : 11.02.2014 *'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM *'''Environnement''' : Linux (Debian-based) *'''Langue''' : Anglais / Français *'''Type''' : Bioinformatique =Installation= ==Dépendances== Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes : Pour la recherche de protéines homologues : * [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+] Pour les alignements : * [[PyBallast]] * DbClustal * [http://www.clustal.org/omega/#Download Clustal Ω 1.2+] * [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+] * [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+] * [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+] Pour la correction d'alignements : * [[Rascal]] * [[Leon]] Pour évaluer la qualité de l'alignement : * [[NorMD]] Pour le clustering et annotations d'alignements : * [[Cluspack]] * [[Macsim]] '''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.''''' ==Installation== Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive. Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur. Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où) =Configuration= La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''. Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/''' Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire <pre> mkdir ~/neopipeconf cp -r /etc/lbgi/neopipe ~/neopipeconf </pre> Puis modifier les paramètres d’exécution pour les différents programmes. Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads) '''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)''' =Exécution= ==Options== {|class="wikitable sortable centre" style="text-align:center;" ! width="15%" | Mot ! width="15%" | Lettre ! width="15%" | Type ! width="60%" | Description |- | --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe |- | --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF) |- | --project || -p || String || Le nom du projet associe à l'analyse |- | --type || -t || String || Type d'analyse (alignement, annotations, structure) |- | --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe |- | --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe |- | --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe |- | --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee |- | --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail |- | --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences) |- | --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà. |- | --help || -h || boolean || Affiche l'aide |} Certaines de ces options ne sont pas encore complètement fonctionnelles : * '''''--compress''''' : seule l'option zip est disponible pour le moment * '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante * '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com) * '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut) D'autres ne sont pas implémentées : * '''''--set''''' ==Exemples== <pre> neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a </pre> =Correction de bugs= Si vous avez une erreur, envoyez moi * la ligne de commande entrée * le message d'erreur complet affiché dans la console * le fichier fasta soumis 4724b19bbd77417fec6d2f94b7e03a4a55f484bc 2965 2964 2014-04-08T14:34:52Z Nguyen 15 /* Informations */ wikitext text/x-wiki Le NeoPipe est uniquement installé sur '''studio''' pour le moment. =Informations= *'''Nom''' : NeoPipe *'''Description''' : A new toolkit for protein family analysis *'''Développeur''' : Vincent Walter *'''Architecte/Project Manager''' : LBGI(ICUBE)-Integrated structural Biology(IGBMC) *'''Crédits''' : FRISBI/INSTRUCT *'''copyright''' : LBGI(ICUBE); Integrated structural Biology(IGBMC) *'''Dernière version''' : 1.0.0 *'''Date de dernière version''' : 11.02.2014 *'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM *'''Environnement''' : Linux (Debian-based) *'''Langue''' : Anglais / Français *'''Type''' : Bioinformatique =Installation= ==Dépendances== Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes : Pour la recherche de protéines homologues : * [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+] Pour les alignements : * [[PyBallast]] * DbClustal * [http://www.clustal.org/omega/#Download Clustal Ω 1.2+] * [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+] * [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+] * [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+] Pour la correction d'alignements : * [[Rascal]] * [[Leon]] Pour évaluer la qualité de l'alignement : * [[NorMD]] Pour le clustering et annotations d'alignements : * [[Cluspack]] * [[Macsim]] '''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.''''' ==Installation== Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive. Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur. Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où) =Configuration= La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''. Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/''' Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire <pre> mkdir ~/neopipeconf cp -r /etc/lbgi/neopipe ~/neopipeconf </pre> Puis modifier les paramètres d’exécution pour les différents programmes. Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads) '''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)''' =Exécution= ==Options== {|class="wikitable sortable centre" style="text-align:center;" ! width="15%" | Mot ! width="15%" | Lettre ! width="15%" | Type ! width="60%" | Description |- | --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe |- | --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF) |- | --project || -p || String || Le nom du projet associe à l'analyse |- | --type || -t || String || Type d'analyse (alignement, annotations, structure) |- | --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe |- | --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe |- | --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe |- | --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee |- | --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail |- | --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences) |- | --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà. |- | --help || -h || boolean || Affiche l'aide |} Certaines de ces options ne sont pas encore complètement fonctionnelles : * '''''--compress''''' : seule l'option zip est disponible pour le moment * '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante * '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com) * '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut) D'autres ne sont pas implémentées : * '''''--set''''' ==Exemples== <pre> neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a </pre> =Correction de bugs= Si vous avez une erreur, envoyez moi * la ligne de commande entrée * le message d'erreur complet affiché dans la console * le fichier fasta soumis bc29ffc84691164ee6d81c9e33fcba7d33d3af90 2966 2965 2014-04-08T14:35:22Z Nguyen 15 /* Informations */ wikitext text/x-wiki Le NeoPipe est uniquement installé sur '''studio''' pour le moment. =Informations= *'''Nom''' : NeoPipe *'''Description''' : A new toolkit for protein family analysis *'''Développeur''' : Vincent Walter *'''Architecte/Project Manager''' : Hoan Nguyen-Integrated structural Biology(IGBMC) *'''Crédits''' : FRISBI/INSTRUCT *'''copyright''' : LBGI(ICUBE); Integrated structural Biology(IGBMC) *'''Dernière version''' : 1.0.0 *'''Date de dernière version''' : 11.02.2014 *'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM *'''Environnement''' : Linux (Debian-based) *'''Langue''' : Anglais / Français *'''Type''' : Bioinformatique =Installation= ==Dépendances== Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes : Pour la recherche de protéines homologues : * [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+] Pour les alignements : * [[PyBallast]] * DbClustal * [http://www.clustal.org/omega/#Download Clustal Ω 1.2+] * [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+] * [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+] * [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+] Pour la correction d'alignements : * [[Rascal]] * [[Leon]] Pour évaluer la qualité de l'alignement : * [[NorMD]] Pour le clustering et annotations d'alignements : * [[Cluspack]] * [[Macsim]] '''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.''''' ==Installation== Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive. Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur. Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où) =Configuration= La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''. Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/''' Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire <pre> mkdir ~/neopipeconf cp -r /etc/lbgi/neopipe ~/neopipeconf </pre> Puis modifier les paramètres d’exécution pour les différents programmes. Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads) '''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)''' =Exécution= ==Options== {|class="wikitable sortable centre" style="text-align:center;" ! width="15%" | Mot ! width="15%" | Lettre ! width="15%" | Type ! width="60%" | Description |- | --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe |- | --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF) |- | --project || -p || String || Le nom du projet associe à l'analyse |- | --type || -t || String || Type d'analyse (alignement, annotations, structure) |- | --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe |- | --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe |- | --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe |- | --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee |- | --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail |- | --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences) |- | --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà. |- | --help || -h || boolean || Affiche l'aide |} Certaines de ces options ne sont pas encore complètement fonctionnelles : * '''''--compress''''' : seule l'option zip est disponible pour le moment * '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante * '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com) * '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut) D'autres ne sont pas implémentées : * '''''--set''''' ==Exemples== <pre> neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a </pre> =Correction de bugs= Si vous avez une erreur, envoyez moi * la ligne de commande entrée * le message d'erreur complet affiché dans la console * le fichier fasta soumis 12146314b8cac8e852b633ebe7b0a0e756ee3963 2967 2966 2014-04-08T14:35:44Z Nguyen 15 /* Informations */ wikitext text/x-wiki Le NeoPipe est uniquement installé sur '''studio''' pour le moment. =Informations= *'''Nom''' : NeoPipe *'''Description''' : A new toolkit for protein family analysis *'''Développeur''' : Vincent Walter *'''Architecte/Project Manager''' : Hoan Nguyen *'''Crédits''' : FRISBI/INSTRUCT *'''copyright''' : LBGI(ICUBE); Integrated structural Biology(IGBMC) *'''Dernière version''' : 1.0.0 *'''Date de dernière version''' : 11.02.2014 *'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM *'''Environnement''' : Linux (Debian-based) *'''Langue''' : Anglais / Français *'''Type''' : Bioinformatique =Installation= ==Dépendances== Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes : Pour la recherche de protéines homologues : * [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+] Pour les alignements : * [[PyBallast]] * DbClustal * [http://www.clustal.org/omega/#Download Clustal Ω 1.2+] * [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+] * [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+] * [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+] Pour la correction d'alignements : * [[Rascal]] * [[Leon]] Pour évaluer la qualité de l'alignement : * [[NorMD]] Pour le clustering et annotations d'alignements : * [[Cluspack]] * [[Macsim]] '''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.''''' ==Installation== Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive. Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur. Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où) =Configuration= La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''. Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/''' Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire <pre> mkdir ~/neopipeconf cp -r /etc/lbgi/neopipe ~/neopipeconf </pre> Puis modifier les paramètres d’exécution pour les différents programmes. Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads) '''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)''' =Exécution= ==Options== {|class="wikitable sortable centre" style="text-align:center;" ! width="15%" | Mot ! width="15%" | Lettre ! width="15%" | Type ! width="60%" | Description |- | --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe |- | --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF) |- | --project || -p || String || Le nom du projet associe à l'analyse |- | --type || -t || String || Type d'analyse (alignement, annotations, structure) |- | --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe |- | --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe |- | --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe |- | --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee |- | --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail |- | --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences) |- | --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà. |- | --help || -h || boolean || Affiche l'aide |} Certaines de ces options ne sont pas encore complètement fonctionnelles : * '''''--compress''''' : seule l'option zip est disponible pour le moment * '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante * '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com) * '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut) D'autres ne sont pas implémentées : * '''''--set''''' ==Exemples== <pre> neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a </pre> =Correction de bugs= Si vous avez une erreur, envoyez moi * la ligne de commande entrée * le message d'erreur complet affiché dans la console * le fichier fasta soumis c965d09cb4be291a6e21210fe4b6da6198e20272 2968 2967 2014-04-09T21:37:52Z Ripp 1 /* Informations */ wikitext text/x-wiki Le NeoPipe est uniquement installé sur '''studio''' pour le moment. =Informations= *'''Nom''' : NeoPipe *'''Description''' : A new toolkit for protein family analysis *'''Développeur''' : Vincent Walter *'''Architecte/Project Manager''' : Hoan Nguyen *'''Crédits''' : FRISBI/INSTRUCT *'''copyright''' : LBGI(ICUBE); Integrated Structural Biology(IGBMC) *'''Dernière version''' : 1.0.0 *'''Date de dernière version''' : 11.02.2014 *'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM *'''Environnement''' : Linux (Debian-based) *'''Langue''' : Anglais / Français *'''Type''' : Bioinformatique =Installation= ==Dépendances== Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes : Pour la recherche de protéines homologues : * [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+] Pour les alignements : * [[PyBallast]] * DbClustal * [http://www.clustal.org/omega/#Download Clustal Ω 1.2+] * [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+] * [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+] * [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+] Pour la correction d'alignements : * [[Rascal]] * [[Leon]] Pour évaluer la qualité de l'alignement : * [[NorMD]] Pour le clustering et annotations d'alignements : * [[Cluspack]] * [[Macsim]] '''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.''''' ==Installation== Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive. Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur. Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où) =Configuration= La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''. Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/''' Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire <pre> mkdir ~/neopipeconf cp -r /etc/lbgi/neopipe ~/neopipeconf </pre> Puis modifier les paramètres d’exécution pour les différents programmes. Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads) '''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)''' =Exécution= ==Options== {|class="wikitable sortable centre" style="text-align:center;" ! width="15%" | Mot ! width="15%" | Lettre ! width="15%" | Type ! width="60%" | Description |- | --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe |- | --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF) |- | --project || -p || String || Le nom du projet associe à l'analyse |- | --type || -t || String || Type d'analyse (alignement, annotations, structure) |- | --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe |- | --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe |- | --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe |- | --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee |- | --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail |- | --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences) |- | --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà. |- | --help || -h || boolean || Affiche l'aide |} Certaines de ces options ne sont pas encore complètement fonctionnelles : * '''''--compress''''' : seule l'option zip est disponible pour le moment * '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante * '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com) * '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut) D'autres ne sont pas implémentées : * '''''--set''''' ==Exemples== <pre> neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a </pre> =Correction de bugs= Si vous avez une erreur, envoyez moi * la ligne de commande entrée * le message d'erreur complet affiché dans la console * le fichier fasta soumis b313ff2d8136569a475c284d5fe9d62e9ddd4d0a 2969 2968 2014-04-09T21:38:41Z Ripp 1 /* Informations */ wikitext text/x-wiki Le NeoPipe est uniquement installé sur '''studio''' pour le moment. =Informations= *'''Nom''' : NeoPipe *'''Description''' : A new toolkit for protein family analysis *'''Développeur''' : Vincent Walter *'''Architecte/Project Manager''' : Hoan Nguyen *'''Crédits''' : FRISBI/INSTRUCT *'''copyright''' : LBGI (ICUBE); Integrated Structural Biology (IGBMC) *'''Dernière version''' : 1.0.0 *'''Date de dernière version''' : 11.02.2014 *'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM *'''Environnement''' : Linux (Debian-based) *'''Langue''' : Anglais / Français *'''Type''' : Bioinformatique =Installation= ==Dépendances== Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes : Pour la recherche de protéines homologues : * [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+] Pour les alignements : * [[PyBallast]] * DbClustal * [http://www.clustal.org/omega/#Download Clustal Ω 1.2+] * [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+] * [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+] * [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+] Pour la correction d'alignements : * [[Rascal]] * [[Leon]] Pour évaluer la qualité de l'alignement : * [[NorMD]] Pour le clustering et annotations d'alignements : * [[Cluspack]] * [[Macsim]] '''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.''''' ==Installation== Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive. Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur. Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où) =Configuration= La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''. Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/''' Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire <pre> mkdir ~/neopipeconf cp -r /etc/lbgi/neopipe ~/neopipeconf </pre> Puis modifier les paramètres d’exécution pour les différents programmes. Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads) '''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)''' =Exécution= ==Options== {|class="wikitable sortable centre" style="text-align:center;" ! width="15%" | Mot ! width="15%" | Lettre ! width="15%" | Type ! width="60%" | Description |- | --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe |- | --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF) |- | --project || -p || String || Le nom du projet associe à l'analyse |- | --type || -t || String || Type d'analyse (alignement, annotations, structure) |- | --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe |- | --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe |- | --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe |- | --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee |- | --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail |- | --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences) |- | --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà. |- | --help || -h || boolean || Affiche l'aide |} Certaines de ces options ne sont pas encore complètement fonctionnelles : * '''''--compress''''' : seule l'option zip est disponible pour le moment * '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante * '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com) * '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut) D'autres ne sont pas implémentées : * '''''--set''''' ==Exemples== <pre> neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a </pre> =Correction de bugs= Si vous avez une erreur, envoyez moi * la ligne de commande entrée * le message d'erreur complet affiché dans la console * le fichier fasta soumis 6ce7192841b15f1255defeb42610899426e67de8 2970 2969 2014-04-09T21:39:08Z Ripp 1 /* Dépendances */ wikitext text/x-wiki Le NeoPipe est uniquement installé sur '''studio''' pour le moment. =Informations= *'''Nom''' : NeoPipe *'''Description''' : A new toolkit for protein family analysis *'''Développeur''' : Vincent Walter *'''Architecte/Project Manager''' : Hoan Nguyen *'''Crédits''' : FRISBI/INSTRUCT *'''copyright''' : LBGI (ICUBE); Integrated Structural Biology (IGBMC) *'''Dernière version''' : 1.0.0 *'''Date de dernière version''' : 11.02.2014 *'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM *'''Environnement''' : Linux (Debian-based) *'''Langue''' : Anglais / Français *'''Type''' : Bioinformatique =Installation= ==Dépendances== Pour pouvoir utiliser NeoPipe il faut télécharger et/ou installer un certain nombre de programmes : Pour la recherche de protéines homologues : * [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+] Pour les alignements : * [[PyBallast]] * DbClustal * [http://www.clustal.org/omega/#Download Clustal Ω 1.2+] * [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+] * [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+] * [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+] Pour la correction d'alignements : * [[Rascal]] * [[Leon]] Pour évaluer la qualité de l'alignement : * [[NorMD]] Pour le clustering et annotations d'alignements : * [[Cluspack]] * [[Macsim]] '''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.''''' ==Installation== Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive. Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur. Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où) =Configuration= La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''. Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/''' Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire <pre> mkdir ~/neopipeconf cp -r /etc/lbgi/neopipe ~/neopipeconf </pre> Puis modifier les paramètres d’exécution pour les différents programmes. Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads) '''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)''' =Exécution= ==Options== {|class="wikitable sortable centre" style="text-align:center;" ! width="15%" | Mot ! width="15%" | Lettre ! width="15%" | Type ! width="60%" | Description |- | --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe |- | --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF) |- | --project || -p || String || Le nom du projet associe à l'analyse |- | --type || -t || String || Type d'analyse (alignement, annotations, structure) |- | --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe |- | --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe |- | --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe |- | --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee |- | --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail |- | --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences) |- | --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà. |- | --help || -h || boolean || Affiche l'aide |} Certaines de ces options ne sont pas encore complètement fonctionnelles : * '''''--compress''''' : seule l'option zip est disponible pour le moment * '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante * '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com) * '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut) D'autres ne sont pas implémentées : * '''''--set''''' ==Exemples== <pre> neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a </pre> =Correction de bugs= Si vous avez une erreur, envoyez moi * la ligne de commande entrée * le message d'erreur complet affiché dans la console * le fichier fasta soumis b59499297ccf3bb402482ce44c951ae088df0bed 2971 2970 2014-04-09T21:40:16Z Ripp 1 /* Installation */ wikitext text/x-wiki Le NeoPipe est uniquement installé sur '''studio''' pour le moment. =Informations= *'''Nom''' : NeoPipe *'''Description''' : A new toolkit for protein family analysis *'''Développeur''' : Vincent Walter *'''Architecte/Project Manager''' : Hoan Nguyen *'''Crédits''' : FRISBI/INSTRUCT *'''copyright''' : LBGI (ICUBE); Integrated Structural Biology (IGBMC) *'''Dernière version''' : 1.0.0 *'''Date de dernière version''' : 11.02.2014 *'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM *'''Environnement''' : Linux (Debian-based) *'''Langue''' : Anglais / Français *'''Type''' : Bioinformatique =Installation= ==Dépendances== Pour pouvoir utiliser NeoPipe il faut télécharger et/ou installer un certain nombre de programmes : Pour la recherche de protéines homologues : * [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+] Pour les alignements : * [[PyBallast]] * DbClustal * [http://www.clustal.org/omega/#Download Clustal Ω 1.2+] * [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+] * [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+] * [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+] Pour la correction d'alignements : * [[Rascal]] * [[Leon]] Pour évaluer la qualité de l'alignement : * [[NorMD]] Pour le clustering et annotations d'alignements : * [[Cluspack]] * [[Macsim]] '''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.''''' ==Installation== Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessaires au fonctionnement du NeoPipe sont embarquées dans l'archive. Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur. Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où) =Configuration= La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''. Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/''' Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire <pre> mkdir ~/neopipeconf cp -r /etc/lbgi/neopipe ~/neopipeconf </pre> Puis modifier les paramètres d’exécution pour les différents programmes. Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads) '''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)''' =Exécution= ==Options== {|class="wikitable sortable centre" style="text-align:center;" ! width="15%" | Mot ! width="15%" | Lettre ! width="15%" | Type ! width="60%" | Description |- | --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe |- | --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF) |- | --project || -p || String || Le nom du projet associe à l'analyse |- | --type || -t || String || Type d'analyse (alignement, annotations, structure) |- | --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe |- | --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe |- | --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe |- | --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee |- | --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail |- | --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences) |- | --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà. |- | --help || -h || boolean || Affiche l'aide |} Certaines de ces options ne sont pas encore complètement fonctionnelles : * '''''--compress''''' : seule l'option zip est disponible pour le moment * '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante * '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com) * '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut) D'autres ne sont pas implémentées : * '''''--set''''' ==Exemples== <pre> neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a </pre> =Correction de bugs= Si vous avez une erreur, envoyez moi * la ligne de commande entrée * le message d'erreur complet affiché dans la console * le fichier fasta soumis 26f9701fbfb8bcd40cf302a80fcda886e8b8269f Gscope 0 1287 2972 2757 2014-06-19T15:48:06Z Ripp 1 /* Normal usage with setgscoperr */ wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] e79f40352b8560a6ef143974595e66a6ae7253fd 2973 2972 2014-07-01T13:44:30Z Ripp 1 /* You can run gscope without setgscoperr */ wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] e44d3adae1a65f98400a838b202671db496e9040 2974 2973 2014-07-01T13:44:58Z Ripp 1 /* You can run gscope without setgscoperr */ wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 34339fb98fcedd859912696af785f1af0e234195 Café des sciences 0 1322 2977 2821 2014-11-28T18:00:38Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis 1999. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 * http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ 8c9bc6b838736bd777a1ed9e489d3602a9c79280 Raymond Ripp 0 1334 2978 2729 2014-12-01T14:57:45Z Ripp 1 wikitext text/x-wiki Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et mon [http://lbgi.igbmc.fr/~ripp site lbgi] Je suis Ingénieur de Recherche CNRS, membre du LBGI BioInformatique et Génomique Intégratives [[LBGI]], équipe BFO ICube et aussi membre du Départment de Biologie et Génomique Structurales [[DBGS]], de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]] b4bda502fb0005e09edbe11710284757d0a865a0 Gscope Procedures 0 1418 2979 2811 2014-12-06T10:35:57Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 51c6851152d103f2ac9c67dd8d4bb2f4a0a8e8cf 2980 2979 2014-12-06T13:49:13Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 68a4f44a78f9195a017ec5ee8f1ec3e62a46ea2a 2981 2980 2014-12-06T13:51:17Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 8def21c33007e6e6c56e952bd1962976ced92a6c 2982 2981 2014-12-06T14:25:02Z Ripp 1 /* GO */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 2915d44509f045a698bc992526cd047dec21d065 Gscope Procedures 0 1418 2983 2982 2014-12-06T14:25:32Z Ripp 1 /* proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown} */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> ff1b131037dfbf1d59edd006dd5286e675449d31 2987 2983 2016-01-21T14:11:13Z Ripp 1 /* proc StringInteractome */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc FromMacsims== With FromMacsims you can query any information from a Macsims XML file FromMacsim /path/to/the/macsim.xml arg2 ar3 FromMacsims without any argument gives you a help as follow #rR FromMacsims permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsims FichierMacsims ListOfList #rR FromMacsims FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un PRojet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsims CIL006 ListOfList #rR FromMacsims CIL006 AlnName #rR FromMacsims CIL006 LNOrdali #rR FromMacsims CIL006 ListOfList #rR FromMacsims CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsims CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsims CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsims CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsims CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsims CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsims CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsims /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsims ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 7131327c1e768b410fbfac6758183107b335fa9c 2988 2987 2016-01-21T14:14:38Z Ripp 1 /* proc FromMacsims */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc FromMacsims== With FromMacsims you can query any information from a Macsims XML file FromMacsim /path/to/the/macsim.xml arg2 ar3 FromMAcsims can be called * within Gscope * with QuestionDeScicence (from any language i.e. python, etc.) * from the web FromMacsims without any argument gives you a help as follow #rR FromMacsims permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsims FichierMacsims ListOfList #rR FromMacsims FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un PRojet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsims CIL006 ListOfList #rR FromMacsims CIL006 AlnName #rR FromMacsims CIL006 LNOrdali #rR FromMacsims CIL006 ListOfList #rR FromMacsims CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsims CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsims CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsims CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsims CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsims CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsims CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsims /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsims ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 6a6f667ca2503c1f4a02abb424d41681939455b6 2993 2988 2016-04-06T08:15:32Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc FromMacsim== attention FromMacsim witout S With FromMacsim you can query any information from a Macsims XML file FromMacsim /path/to/the/macsim.xml arg2 ar3 FromMacsim can be called * within Gscope * with QuestionDeScicence (from any language i.e. python, etc.) * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> d785d2cfa73934ad909862997355f6f3ef489783 2994 2993 2016-04-06T09:20:55Z Ripp 1 /* proc FromMacsim */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc FromMacsim== attention FromMacsim witout S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> ebd569b02f0e2487ba146d5d28929f8abd1df89b 2995 2994 2016-04-06T09:21:59Z Ripp 1 /* proc FromMacsim */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc FromMacsim== attention FromMacsim witout S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... ) frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> b9ce374af73d1c4fc007b79ade507556f486b050 2996 2995 2017-09-25T17:54:05Z Ripp 1 /* proc FromMacsim */ wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc FromMacsim== attention FromMacsim without S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... ) frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 7f235684558795aa12f610be09de525832ceba14 3022 2996 2018-01-10T10:10:46Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc BoutADNDeUcsc== Marche très bien ! :-) * Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus) * Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa * Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut * On a accès à tout ça par proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}} * Deb est la position de départ (on compte à partir de 1) * Fin est la position de fin (on peut mettre 'end') * Orient F pour Forward, R pour Reverse * Orga à choisir parmi ceux cités ci-dessus Mais il y a d'autres fonctionnalités BoutADNDeUcsc BoutADNDeUcsc Dir BoutADNDeUcsc List of organisms BoutADNDeUcsc List of BigZips BoutADNDeUcsc List of BigZips Homo_sapiens BoutADNDeUcsc List of links BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 BigZips200903 BoutADNDeUcsc 1 end F Homo_sapiens chr14 BigZips ==proc FromMacsim== attention FromMacsim without S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... ) frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 29577343109b1e9e89dbf0307f20b63ac797a11d 3023 3022 2018-01-10T10:53:08Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc BoutADNDeUcsc== Marche très bien ! :-) * Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus) * Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa * Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut * On a accès à tout ça par proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}} * Deb est la position de départ (on compte à partir de 1) * Fin est la position de fin (on peut mettre 'end') * Orient F pour Forward, R pour Reverse * Orga à choisir parmi ceux cités ci-dessus Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe BoutADNDeUcsc BoutADNDeUcsc Dir BoutADNDeUcsc List of organisms BoutADNDeUcsc List of bigZips BoutADNDeUcsc List of bigZips Homo_sapiens BoutADNDeUcsc List of links BoutADNDeUcsc List normal fasta - Homo_sapiens - bigZips200903 BoutADNDeUcsc List all fasta - Homo_sapiens - bigZips200903 BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903 BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips ==proc FromMacsim== attention FromMacsim without S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... ) frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> f95f76560402b1f51625c2eb4aad26c59d2ffcd9 3024 3023 2018-01-10T10:59:36Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc BoutADNDeUcsc== Marche très bien ! :-) * Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus) * Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa * Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut * On a accès à tout ça par proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}} * Deb est la position de départ (on compte à partir de 1) * Fin est la position de fin (on peut mettre 'end') * Orient F pour Forward, R pour Reverse * Orga à choisir parmi ceux cités ci-dessus Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe BoutADNDeUcsc BoutADNDeUcsc Dir BoutADNDeUcsc List of organisms BoutADNDeUcsc List of bigZips BoutADNDeUcsc List of bigZips Homo_sapiens BoutADNDeUcsc List of links BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903 BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips ==proc FromMacsim== attention FromMacsim without S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... ) frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> cbf6ac793cb721f2699b9ea87e58d4ab83bbb7f7 3029 3024 2018-01-23T09:40:44Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc BoutADNDeUcsc== Marche très bien ! :-) * Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus) * Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa * Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut * On a accès à tout ça par proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}} * Deb est la position de départ (on compte à partir de 1) * Fin est la position de fin (on peut mettre 'end') * Orient F pour Forward, R pour Reverse * Orga à choisir parmi ceux cités ci-dessus Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe BoutADNDeUcsc BoutADNDeUcsc Dir BoutADNDeUcsc List of organisms BoutADNDeUcsc List of bigZips BoutADNDeUcsc List of bigZips Homo_sapiens BoutADNDeUcsc List of links BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903 BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips ===GeneNames=== Gscope knows a lot about [[GeneNames]] ==proc FromMacsim== attention FromMacsim without S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... ) frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 804906fd0a4dbd5ac76e464fbf761b72cb0b472f 3030 3029 2018-01-23T09:41:08Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==proc BoutADNDeUcsc== Marche très bien ! :-) * Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus) * Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa * Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut * On a accès à tout ça par proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}} * Deb est la position de départ (on compte à partir de 1) * Fin est la position de fin (on peut mettre 'end') * Orient F pour Forward, R pour Reverse * Orga à choisir parmi ceux cités ci-dessus Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe BoutADNDeUcsc BoutADNDeUcsc Dir BoutADNDeUcsc List of organisms BoutADNDeUcsc List of bigZips BoutADNDeUcsc List of bigZips Homo_sapiens BoutADNDeUcsc List of links BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903 BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips ==GeneNames== Gscope knows a lot about [[GeneNames]] ==proc FromMacsim== attention FromMacsim without S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... ) frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 68b03214f1857f02187cfda7f62419579afa96bf Main Page 0 1279 2984 2962 2015-08-26T14:45:00Z Ripp 1 /* Thématiques et Projets */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène hpolveche@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor * [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]] ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] * [[AlAnnot]] on va Annoteer des ALignements * [[Wali]] Visualisation des alignement et des Macsims sour le Web * [[OlymClade]] les Olympiades des Clades dasn Gscope pour CilioCarta ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 64ed6b902718eb6b9a41c3ede45129ecddb09322 2989 2984 2016-02-07T15:07:42Z Ripp 1 /* LBGI */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène hpolveche@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor * [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]] ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] * [[AlAnnot]] on va Annoteer des ALignements * [[Wali]] Visualisation des alignement et des Macsims sour le Web * [[OlymClade]] les Olympiades des Clades dasn Gscope pour CilioCarta ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] da5613f2741626c3fbbb06fdfab96afdfa3bd0dd 2990 2989 2016-02-07T15:08:19Z Ripp 1 Reverted edits by [[Special:Contributions/Ripp|Ripp]] ([[User talk:Ripp|Talk]]); changed back to last version by [[User:Nguyen|Nguyen]] wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène hpolveche@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor * [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]] ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 59bb3250f0a6130f612bbecfdff8580ab5919e7d 2991 2990 2016-02-07T15:09:30Z Ripp 1 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://biplan/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://biplan/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène hpolveche@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor * [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]] ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 9b50de96f6745b2afc59048893dd6a066787ef14 2992 2991 2016-04-05T11:54:35Z Ripp 1 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==People== To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only] or [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name] * ALLOT Alexis allot@unistra.fr * BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr * CHENNEN Kirsley kchennen@unistra.fr * LECOMPTE Odile odile.lecompte@unistra.fr * MOULINIER Luc luc.moulinier@unistra.fr * MULLER Jean jeanmuller@unistra.fr * NEY Anne anne.ney@unistra.fr * NGUYEN Hoan ngochoannguyen@unistra.fr * POCH Olivier olivier.poch@unistra.fr * POIDEVIN Laetitia l.poidevin@unistra.fr * POLVECHE Hélène hpolveche@unistra.fr * RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr * RIPP Raymond raymond.ripp@unistra.fr * THOMPSON Julie thompson@unistra.fr * VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr * WALTER Vincent v.walter@unistra.fr ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor * [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]] ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 59bb3250f0a6130f612bbecfdff8580ab5919e7d 3025 2992 2018-01-11T09:02:55Z Ripp 1 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] sur Ouragan ou autre ... * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor * [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]] ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] 5699213a648bcf0c9282d56cd16d08f256659fbc Wali 0 1445 2985 2015-08-26T15:20:42Z Ripp 1 New page: Wali '''W'''eb '''ALI'''gnement visualizer [http://lbgi.fr/wali/wali http://lbgi.fr/wali/wali] ==Cahier des charges== * Le but premier est d'afficher sur le WEB les features de Macsims... wikitext text/x-wiki Wali '''W'''eb '''ALI'''gnement visualizer [http://lbgi.fr/wali/wali http://lbgi.fr/wali/wali] ==Cahier des charges== * Le but premier est d'afficher sur le WEB les features de Macsims. * Il s'agit d'avoir (à la Ordali) une fenêtre pour les noms et taxonomies des séquences et, à côté, bien en parallèle, la fenêtre avec les séquences sur lesquelles on peut allumer et éteindre les features en appuyant sur le bon bouton (boutons qui se créent automatiquement en fonction des features présentes). * Les features sont des div mises bout à bout en horizontales mais qui peuvent aussi se superposer. * Pour le moment on interroge la procédure gscope DessineMoiUnRSF Macsim.rsf (faudrait l'étendre au fichier Macsim.xml sans avoir à faire la conversion) * Dans le cas de CilioCarta où l'on dispose du BilanCilio on aura sur la taxonomie les couleurs relatives au bilan. * Dans la partie gauche on peut selectionner les séquences que l'on peut couper pour les placer ailleurs (après la ligne sélectionnée ou en début si pas de sélection). On peut aussi les faire disparître pour la session en cours ... mais attetionelles ne seront alors plus récupérables sans recharger. ==Architecture et programmation== Ma première utilisation de Rivet ! 440a95d3196d76a1c9726ee06ce73ee85a5ac8e9 2986 2985 2015-08-26T15:36:05Z Ripp 1 wikitext text/x-wiki Wali '''W'''eb '''ALI'''gnement visualizer [http://lbgi.fr/wali/wali http://lbgi.fr/wali/wali] ==Cahier des charges== * Le but premier est d'afficher sur le WEB les features de Macsims. * Il s'agit d'avoir (à la Ordali) une fenêtre pour les noms et taxonomies des séquences et, à côté, bien en parallèle, la fenêtre avec les séquences sur lesquelles on peut allumer et éteindre les features en appuyant sur le bon bouton (boutons qui se créent automatiquement en fonction des features présentes). * Les features sont des div mises bout à bout en horizontales mais qui peuvent aussi se superposer. * Pour le moment on interroge la procédure gscope DessineMoiUnRSF Macsim.rsf (faudrait l'étendre au fichier Macsim.xml sans avoir à faire la conversion) * Dans le cas de CilioCarta où l'on dispose du BilanCilio on aura sur la taxonomie les couleurs relatives au bilan. * Dans la partie gauche on peut selectionner les séquences que l'on peut couper pour les placer ailleurs (après la ligne sélectionnée ou en début si pas de sélection). On peut aussi les faire disparître pour la session en cours ... mais attention elles ne seront alors plus récupérables sans recharger. ==Architecture et programmation== Ma première utilisation de Rivet ! * Voici le fichier .htaccess qui se trouve dans le répertoire racine de wali <source lang='html4strict'> <IfModule mod_rewrite.c> Options -MultiViews RewriteEngine On RewriteBase /wali RewriteCond %{REQUEST_FILENAME} !-f RewriteRule ^(.*) wali.rvt?do=$1 </IfModule> </source> Il dit que tout ce qui arrive en /wali''abcdxyz'' doit se réécrire /wali/wali.rvt?do=''abcdxyz'' ceci permet de toujours passer par le même wali.rvt * Le script wali.rvt traite les arguments et évalue ce qu'il faut. Pour plus de détails voir le [http://lbgi.fr/wikili/wali wiki privé] 5771bb37a84ed7d9e0d26acc1831084cb1361c84 Gscope 0 1287 2997 2974 2017-11-13T12:34:13Z Ripp 1 /* Normal usage with setgscoperr */ wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * YOu can execute any procedure of GScope gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] a54cb5887444ee435ff31200297dbef31d1bf56a 3026 2997 2018-01-23T09:38:06Z Ripp 1 wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * YOu can execute any procedure of GScope gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 7c064cf339f01ef0bc1fb7adcc3cec03e6a39b39 3027 3026 2018-01-23T09:38:34Z Ripp 1 wikitext text/x-wiki New : Gscope knows a lot about [[GeneNames]] Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * YOu can execute any procedure of GScope gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] f96bf1365ab59f18501467ad4938a9ef3e7ed285 3028 3027 2018-01-23T09:39:42Z Ripp 1 wikitext text/x-wiki Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== * Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project] * [[Gscope Procedures]] * [[GscopeSql]] how to access our postgresql and mysql databases ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * YOu can execute any procedure of GScope gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 4db001ac3f463383df8a67d244cf259cda95e7a5 3033 3028 2018-01-23T19:31:46Z Ripp 1 wikitext text/x-wiki Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== ===Gscope Proceures=== See some very important [[Gscope Procedures]] ===GscopeSql=== * [[GscopeSql]] how to access our postgresql, mysql and sqlite databases ===Gscope Documentatiopn Project (from Benjamin Linard)=== * Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * YOu can execute any procedure of GScope gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] c1b8afc86ec93ccc992a28c2b71ed1937f544a0b 3034 3033 2018-01-23T19:32:47Z Ripp 1 wikitext text/x-wiki Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== ===Gscope Proceures=== See some very important [[Gscope Procedures]] ===GscopeSql=== * [[GscopeSql]] how to access our postgresql, mysql and sqlite databases ===Gscope Documentatiopn Project (from Benjamin Linard)=== * Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * YOu can execute any procedure of GScope gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 581de2921ba7190cf2e32b76031f36e2155cd7d7 Architecture of Gscope 0 1328 2998 1727 2017-11-13T12:43:38Z Ripp 1 /* Gscope from the begining */ wikitext text/x-wiki The Architecture of Gscope is ... not perfect. To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tied to find the function of each protein. For that we needed to have an interactive visualisation tool allowing to show the sequences, blast outputs and mutilple alignments. bf6b284e9c73bef5a7e0ec7d0c1795a68db8cd6c 2999 2998 2017-11-13T13:08:54Z Ripp 1 wikitext text/x-wiki The Architecture of Gscope is ... not perfect. To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualisation tool allowing to show the sequences, blast outputs and multiple alignments. [[images:GscopeBoard.png]] 1341bf5351201741cb82411072f74c4c4d7f95cb 3003 2999 2017-11-13T13:20:04Z Ripp 1 /* Gscope from the begining */ wikitext text/x-wiki The Architecture of Gscope is ... not perfect. To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualisation tool allowing to show the sequences, blast outputs and multiple alignments. [[Images:GscopeBoard.png]] e61f1b233813772e9669546bacea6b243d899c97 3004 3003 2017-11-13T16:46:46Z Ripp 1 wikitext text/x-wiki The Architecture of Gscope is ... not perfect. To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs and multiple alignments. [[Images:GscopeBoard.png]] The Pabyssi gscope project handles ids PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } So since Pabyssi I didn't change the name of this central procedure ... 6a89be2163e95e649596eca664635ca16f861338 3005 3004 2017-11-13T16:47:57Z Ripp 1 /* Gscope from the begining */ wikitext text/x-wiki The Architecture of Gscope is ... not perfect. To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] The Pabyssi gscope project handles ids PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } So since Pabyssi I didn't change the name of this central procedure ... b7f68b99ec08dfbfc104602896a6d2e32fd9fb07 3006 3005 2017-11-13T16:59:01Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ===ListeDesPABs=== The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) Each one has an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } So since Pabyssi I didn't change the name of this central procedure ... 4b699a5c7917fd98de7fc8099c8f8b1a32c79448 3007 3006 2017-11-13T17:00:54Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ===ListeDesPABs=== The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and I wxas never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one has an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } So since Pabyssi I didn't change the name of this central procedure ... 8a3fa508d7f72c5b8c80a0bef6723c367668a238 3008 3007 2017-11-13T17:03:45Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ===ListeDesPABs=== The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } So since Pabyssi I didn't change the name of this central procedure ... 36ba202f9611a58e072face0c81a139a069d4d39 3009 3008 2018-01-08T10:22:05Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ===ListeDesPABs=== The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. 67a249ce27a8264e9fe91c197e21cbcd4f72d2dd 3010 3009 2018-01-08T16:10:19Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) In that directory you'll find the directories * prottfa * protembl ===ListeDesPABs=== The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. 0cd71505ff707e4955597c906eea58a0ca8f0090 3011 3010 2018-01-08T16:28:24Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ===PAB=== The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a prefix (ex. PAB oe BOX or EHomsa) and a 1, 2, 3 4, .. digits PAB0001 EHoma12345 ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) In that directory you'll find the directories * nuctfa a fasta file for each nucleic sequence * nucembl a embl * prottfa a fasta file for each protein PAB * protembl a embl 0d241cac33ce214f290d6319a1962bf0175bba50 3012 3011 2018-01-08T16:44:02Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ===PAB=== The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB oe BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number PAB0001 EHoma12345 ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containting the default correspondin information '''BUT''' we coulmd imagine to create different blast for different datbases. In that case we culd have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall 0523e6378944e3684f13355b047c4e66bc108578 3013 3012 2018-01-08T17:09:22Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ===PAB=== The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB oe BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number PAB0001 EHoma12345 ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!) Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo ExtraitInfo EHomsa00001 lists all available infod ExtraitInfo EHomsa00001 AC: return the AC field ===beton and fiches=== * the beton subdirectory contains thing which should never change ** typically the miniconfig file * the fiches subdirectory contains things concerning the project itself ** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard ** lesgenomescomplets gives the list of the intersting complete genomes (mainly an empty list) b01ef814a852df231c83c1d667c8159a40ac50ac 3014 3013 2018-01-08T18:44:18Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ==Naming and general organisation== ===PAB=== The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345) ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!) Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo ExtraitInfo EHomsa00001 lists all available infod ExtraitInfo EHomsa00001 AC: return the AC field ===beton and fiches=== * the beton subdirectory contains thing which should never change ** typically the miniconfig file * the fiches subdirectory contains things concerning the project itself ** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard ** lesgenomescomplets gives the list of the intersting complete genomes (mainly an empty list) e41bc3fce844bb6c528f7869792e07d7b7295ea7 3015 3014 2018-01-08T18:57:48Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ==Naming and general organisation== ===PAB=== The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345) ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!) Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo ExtraitInfo EHomsa00001 lists all available infod ExtraitInfo EHomsa00001 AC: return the AC field ===beton and fiches=== * the beton subdirectory contains thing which should never change ** typically the miniconfig file * the fiches subdirectory contains things concerning the project itself ** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard ** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list) ** niag.txt contains the lookup table between the GscopeId EHomasa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16 ** MyGenesFromGo.txt ** MyGOsFromGenes.txt ** etc. ==MUST BE THERE== Notice that each Gscope project must have * a project name '''MyProject''' (the name of the directory /genomics/link/MyProject * a /genomics/link/MyProject/beton/'''miniconfig''' file * the /genomics/link/fiches/'''bornesdespabs ''' otherwize Gscope can't start but asks you to give the information to create thes compulsory data. 95bf3c47b7cd265b7a4ffdb1a08672f9d7949c03 3016 3015 2018-01-08T18:58:11Z Ripp 1 /* MUST BE THERE */ wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ==Naming and general organisation== ===PAB=== The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345) ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!) Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo ExtraitInfo EHomsa00001 lists all available infod ExtraitInfo EHomsa00001 AC: return the AC field ===beton and fiches=== * the beton subdirectory contains thing which should never change ** typically the miniconfig file * the fiches subdirectory contains things concerning the project itself ** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard ** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list) ** niag.txt contains the lookup table between the GscopeId EHomasa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16 ** MyGenesFromGo.txt ** MyGOsFromGenes.txt ** etc. ==MUST BE THERE== Notice that each Gscope project must have * a project name '''MyProject''' (the name of the directory /genomics/link/MyProject) * a /genomics/link/MyProject/beton/'''miniconfig''' file * the /genomics/link/fiches/'''bornesdespabs ''' otherwize Gscope can't start but asks you to give the information to create thes compulsory data. 1e9c6ffa0a18ec8acc97ed0e6432ba8ad3d57546 3017 3016 2018-01-08T19:04:58Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ==Naming and general organisation== ===PAB=== The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345) ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!) Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo ExtraitInfo EHomsa00001 lists all available infod ExtraitInfo EHomsa00001 AC: return the AC field ===beton and fiches=== * the beton subdirectory contains thing which should never change ** typically the miniconfig file * the fiches subdirectory contains things concerning the project itself ** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard ** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list) ** niag.txt contains the lookup table between the GscopeId EHomasa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16 ** MyGenesFromGo.txt ** MyGOsFromGenes.txt ** etc. ==MUST BE THERE== Notice that each Gscope project must have * a project name '''MyProject''' (the name of the directory /genomics/link/MyProject) * a /genomics/link/MyProject/beton/'''miniconfig''' file * the /genomics/link/fiches/'''bornesdespabs ''' otherwize Gscope can't start but asks you to give the information to create thes compulsory data. Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names. Notice also that the project name can be different from the prefix ... The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do setgscoperr MyNewPro 7d82c6726b5f8e5e234da354b85776016d83f0c1 3018 3017 2018-01-08T19:05:50Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ==Naming and general organisation== ===PAB=== The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345) ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!) Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo ExtraitInfo EHomsa00001 lists all available infod ExtraitInfo EHomsa00001 AC: return the AC field ===beton and fiches=== * the beton subdirectory contains thing which should never change ** typically the miniconfig file * the fiches subdirectory contains things concerning the project itself ** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard ** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list) ** niag.txt contains the lookup table between the GscopeId EHomasa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16 ** MyGenesFromGo.txt ** MyGOsFromGenes.txt ** etc. ==FOLLOWING FILES MUST BE THERE== Notice that each Gscope project must have * a project name '''MyProject''' (the name of the directory /genomics/link/MyProject) * a /genomics/link/MyProject/beton/'''miniconfig''' file * the /genomics/link/fiches/'''bornesdespabs ''' otherwize Gscope can't start but asks you to give the information to create thes compulsory data. Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names. Notice also that the project name can be different from the prefix ... The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do setgscoperr MyNewProj b167d71e1a2c034a912356147e4f394481cf2c8d 3019 3018 2018-01-08T19:08:41Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ==Naming and general organisation== ===PAB=== The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all this ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345) ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!) Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo ExtraitInfo EHomsa00001 lists all available infod ExtraitInfo EHomsa00001 AC: return the AC field ===beton and fiches=== * the beton subdirectory contains thing which should never change ** typically the miniconfig file * the fiches subdirectory contains things concerning the project itself ** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard ** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list) ** niag.txt contains the lookup table between the GscopeId EHomsa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16 ** MyGenesFromGo.txt ** MyGOsFromGenes.txt ** etc. ==FOLLOWING FILES MUST BE THERE== Notice that each Gscope project must have * a project name '''MyProject''' (the name of the directory /genomics/link/MyProject) * a /genomics/link/MyProject/beton/'''miniconfig''' file * the /genomics/link/fiches/'''bornesdespabs ''' otherwize Gscope can't start but asks you to give the information to create thes compulsory data. Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names. Notice also that the project name is absolutely not linked to the prefix (... it's only a habbit ...) The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do setgscoperr MyNewProj 1c11dc76113320425ee8520c13cfcc760a30d704 3020 3019 2018-01-08T19:09:21Z Ripp 1 /* PAB */ wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ==Naming and general organisation== ===PAB=== The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all these ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345) ===Gscope File Organisation=== Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!) Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo ExtraitInfo EHomsa00001 lists all available infod ExtraitInfo EHomsa00001 AC: return the AC field ===beton and fiches=== * the beton subdirectory contains thing which should never change ** typically the miniconfig file * the fiches subdirectory contains things concerning the project itself ** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard ** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list) ** niag.txt contains the lookup table between the GscopeId EHomsa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16 ** MyGenesFromGo.txt ** MyGOsFromGenes.txt ** etc. ==FOLLOWING FILES MUST BE THERE== Notice that each Gscope project must have * a project name '''MyProject''' (the name of the directory /genomics/link/MyProject) * a /genomics/link/MyProject/beton/'''miniconfig''' file * the /genomics/link/fiches/'''bornesdespabs ''' otherwize Gscope can't start but asks you to give the information to create thes compulsory data. Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names. Notice also that the project name is absolutely not linked to the prefix (... it's only a habbit ...) The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do setgscoperr MyNewProj 65d72791157f913e7ffbec242d7065c2b6262279 3021 3020 2018-01-10T09:09:40Z Ripp 1 wikitext text/x-wiki Architecture of Gscope To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope ==Gscope from the begining== Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''. Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein. For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things. [[Images:GscopeBoard.png]] ==Naming and general organisation== ===PAB=== The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard. We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???) Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive) The procedure ListeDesPABs returns the list of all these ids. We use very often : foreach Nom [ListeDesPABs] { DoSomething $Nom } Since Pabyssi I didn't change the name of this central procedure. To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345) ===Gscope File Organisation=== See more at [[Gscope Project]] Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject) Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345 In directory /genomics/link/MyProject you'll find the directories * nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345) * nucembl containing the embl format * prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345) * protembl containing the embl format * blastp * ballast * msf * msfleon * macsimXml * macsimcRsf thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have * blastpProtall * blastpUniref and to keep the default directory we use link blastp -> blastpProtall The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!) Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo ExtraitInfo EHomsa00001 lists all available infod ExtraitInfo EHomsa00001 AC: return the AC field ===beton and fiches=== * the beton subdirectory contains thing which should never change ** typically the miniconfig file * the fiches subdirectory contains things concerning the project itself ** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard ** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list) ** niag.txt contains the lookup table between the GscopeId EHomsa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16 ** MyGenesFromGo.txt ** MyGOsFromGenes.txt ** etc. ==FOLLOWING FILES MUST BE THERE== Notice that each Gscope project must have * a project name '''MyProject''' (the name of the directory /genomics/link/MyProject) * a /genomics/link/MyProject/beton/'''miniconfig''' file * the /genomics/link/fiches/'''bornesdespabs ''' otherwize Gscope can't start but asks you to give the information to create thes compulsory data. Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names. Notice also that the project name is absolutely not linked to the prefix (... it's only a habbit ...) The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do setgscoperr MyNewProj ee3c3ced0700ef49ca0a629df2468accfc1bda34 File:GscopeBoard.png 6 1447 3002 2017-11-13T13:18:18Z Ripp 1 The GscopeBoard gives interactive access to each protein. wikitext text/x-wiki The GscopeBoard gives interactive access to each protein. 0ff6b472b209c8a101fd954a13a27f9e7891e131 Café des sciences 0 1322 3031 2977 2018-01-23T09:49:08Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Tiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis 1999. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://lbgi.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 * http://lbgi.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ a640bc2e6157da5822c4f5c806bcc06ebb216203 GscopeSql 0 1419 3032 2621 2018-01-23T19:27:28Z Ripp 1 wikitext text/x-wiki GscopeSql how to access postgresql and mysql databases. Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl] et [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl]) <source lang="tcl"> CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret] ou Gx ou Dbgs ou FedLord ou ...) set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist") CanalSqlDisconnect </source> Il detecte tout seul s'il s'agit de postgresql, mysql ou sqlite. Du coup les commandes simples SELECT, INSERT, UPDATE, DELETE sont les mêmes. En général les SELECT se font très simplement par <source lang="tcl"> foreach {a b c} [SqlExec "select A,B,C from table" "GetList"] { ... } </source> On peut aussi récupérer le 'handle' pour faire des choses plus savantes. En MYSQL on peut faire SqlExec mysqlinfo ... bref les vraies commandes mysql (voir [http://www.ucl.ac.uk/is/mysql/tcl/ MySql Tcl]). c4c4343d68ba9c1f60b1084605f34e606ae89e8c Gscope 0 1287 3035 3034 2018-01-23T19:33:09Z Ripp 1 wikitext text/x-wiki Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== ===Gscope Procedures=== See some very important [[Gscope Procedures]] ===GscopeSql=== * [[GscopeSql]] how to access our postgresql, mysql and sqlite databases ===Gscope Documentatiopn Project (from Benjamin Linard)=== * Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * YOu can execute any procedure of GScope gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 175f340357d42444a2e422c72f09730de0013b58 3054 3035 2018-01-27T11:06:18Z Ripp 1 wikitext text/x-wiki Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== ===Gscope Procedures=== See some very important [[Gscope Procedures]] ===GscopeSql=== * [[GscopeSql]] how to access our postgresql, mysql and sqlite databases ===Gscope Documentatiopn Project (from Benjamin Linard)=== * Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * You '''can execute any procedure''' of Gscope as command line *** THE BIGGEST IDEA I HAD *** gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] 260a38b6488e2cac66a45744dea15b4d2f5af787 3055 3054 2018-01-27T11:06:47Z Ripp 1 /* Normal usage with setgscoperr */ wikitext text/x-wiki Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope] ==What is Gscope ?== * Gscope is an integrated platform allowing the analysis of all kind of genomic data. * Gscope is written in Tcl/Tk and runs on all systems. * Gscope is specially designed to perform high throughput analysis. * Gscope is mainly composed of ** all tools necessary to create the basic data ** analysis tools ** visualisation interface * it allows also ** the creation and feeding of SQL relational databases ** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope]) ==Gscope Documentation== ===Gscope Procedures=== See some very important [[Gscope Procedures]] ===GscopeSql=== * [[GscopeSql]] how to access our postgresql, mysql and sqlite databases ===Gscope Documentatiopn Project (from Benjamin Linard)=== * Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project] ==Usage== ===Normal usage with setgscoperr=== * Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.) * To run Gscope you need to define the corresponding project. setgscoperr ''MyProject'' gscope * If the project already exists the [[Gscope Environment Variables]] are set. * If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]]) * You '''can execute any procedure''' of Gscope as command line '''*** THE BIGGEST IDEA I HAD ***''' gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode * if you want to run Gscope in batch mode (as for example BlastPPourTous) glance BlastPPourTous glance BlastPPourTous 8 glance "BlastPPourTous All /blast/uniref90" 12 if the command is more then one word you have to use " " the last number says how many process to run simultaneously (4 by default) ===You can run gscope without setgscoperr=== Since 2010/08/26 it is possible to run directly gscope /home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3 and if you are shure not to use Tk /home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3 ==Gscope has some specific applications== * [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS ==How it works== * Main [[Architecture of Gscope]] f665008863fc63d97ac99b9bb25a6cde93505acc Gscope Procedures 0 1418 3036 3030 2018-01-23T19:44:29Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==OrthoInspector== La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. APrès on a recommencé mais on ne prenant pas tous le monde ... il a fallu nommer les organismes, etc. voir [[OrthoInspector]] ==proc BoutADNDeUcsc== Marche très bien ! :-) * Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus) * Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa * Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut * On a accès à tout ça par proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}} * Deb est la position de départ (on compte à partir de 1) * Fin est la position de fin (on peut mettre 'end') * Orient F pour Forward, R pour Reverse * Orga à choisir parmi ceux cités ci-dessus Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe BoutADNDeUcsc BoutADNDeUcsc Dir BoutADNDeUcsc List of organisms BoutADNDeUcsc List of bigZips BoutADNDeUcsc List of bigZips Homo_sapiens BoutADNDeUcsc List of links BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903 BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips ==proc FromMacsim== attention FromMacsim without S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... ) frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==GeneNames== Gscope knows a lot about [[GeneNames]] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> e971aac792169da16f4f5eeed4e79a24b0b0cda2 3037 3036 2018-01-23T19:45:09Z Ripp 1 wikitext text/x-wiki You'll find here description about some important Gscope Procedures see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy] ==OrthoInspector== La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. voir [[OrthoInspector]] ==proc BoutADNDeUcsc== Marche très bien ! :-) * Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus) * Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa * Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut * On a accès à tout ça par proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}} * Deb est la position de départ (on compte à partir de 1) * Fin est la position de fin (on peut mettre 'end') * Orient F pour Forward, R pour Reverse * Orga à choisir parmi ceux cités ci-dessus Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe BoutADNDeUcsc BoutADNDeUcsc Dir BoutADNDeUcsc List of organisms BoutADNDeUcsc List of bigZips BoutADNDeUcsc List of bigZips Homo_sapiens BoutADNDeUcsc List of links BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903 BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903 BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips ==proc FromMacsim== attention FromMacsim without S With FromMacsim you can query any information from a Macsims XML file FromMacsim can be called * as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... ) frommacsim /path/to/the/macsim.xml arg2 arg3 * within Gscope FromMacsim Prefixe123 arg2 arg3 * with QuestionDeScicence (from any language i.e. python, etc.) /biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3 * from the web FromMacsim without any argument gives you a help as follow #rR FromMacsim permet d'interroger n'importe quel macsims au format XML #rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales #rR la liste des variables globales existantes est accessible par #rR FromMacsim FichierMacsims ListOfList #rR FromMacsim FichierMacsims ListOfArray #rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni #rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 AlnName #rR FromMacsim CIL006 LNOrdali #rR FromMacsim CIL006 ListOfList #rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...) #rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence) #rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées) #rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales) #rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features) #rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features) #rR On peut mettre un nom complet de fichier #rR FromMacsim /ici/oula/toto #rR ou pour tout projet Gscope #rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...) ==GeneNames== Gscope knows a lot about [[GeneNames]] ==proc StringInteractome== With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape] Please see our wiki page for [[String]] ==proc Iterator== See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator] <source lang="tcl"> set Name [Iterator New Init $L0 $L1 $L2] while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $ #rR L2 is the fastest !!!!!!!!!!!!!!!!!!!! #rR Attention lists are numbered from 0 to 2 (for the caller) #rR but are from 2 to 0 in the proc Iterator $Name Reset Iterator $Name Destroy set Info [Iterator Iterator Get ListOf Name] set Info [Iterator $Name Get Current 2] #rR current index de L2 set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2 set Info [Iterator $Name Get Max 0] set Info [Iterator $Name Get Max All] set Info [Iterator $Name Get Total Iter] </source> =GO= Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType. Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'( Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres. ==proc GoGetInFile {File args}== Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice. ==proc GoNext {UpDown Go}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext] * GoNext returns its children if down, its parent if up (can be more than 1 parent) * GoChildren Go is GoNext Down Go * GoParents Go is GoNext Up Go ==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo] * UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children) * GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs <source lang="tcl"> set ListOfGo [GoGetFromGo "protein binding" GO] set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc] set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name] set ListOfPfam [GoGetFromGo "protein binding" PFAM] set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id] set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc] set ListOfGene [GoGetFromGo "protein binding" GENE] set ListOfGene [GoGetFromGo "protein binding" GENEsymbol] set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol] </source> ==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene] * GoGetFromGene returns ''what you need'' about all its GO if Up == "Up" each geen is also included recursilvely in the parent GOs <source lang="tcl"> set ListOfGO [GoGetFromGene PAX6 GO] set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc] set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name] set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id] </source> ==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}== Same as GoGetFromGene but for a list of genes. The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ... ==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}== Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam] * GoGetFromGene returns ''what you need'' about all its GO <source lang="tcl"> set ListOfGO [GoGetFromPfam PF09088 GO] set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc] set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name] set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id] </source> 6ee1c7475d56f282be59c10cd1232fe1673bd817 OrthoInspector 0 1448 3038 2018-01-23T19:48:28Z Ripp 1 Created page with "OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes..." wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus a4b95923ee7fdb05b12261009db086eb297ef1e0 3039 3038 2018-01-23T19:51:38Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== # Yannis crée les protéomes dans /genomics/link/OrthoInspector_proteomes/ 3bae1ebf0f98601104824f4121b0b4ec55373714 3040 3039 2018-01-23T19:53:57Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* Archaea #* Bacteria #* Eukaryota #* Qfo #* Transverse #* Virus 48899819993cd78480c5b6fa1db13b10d5fece8d 3041 3040 2018-01-23T19:58:00Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé OiDomain dans Gscope #* Quand on travaille dans le projet Archaea la proc OiDomain rend Archaea 219d377626903ab8bd02d1b912842bd689a4cf56 3042 3041 2018-01-23T20:01:22Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé OiDomain dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Pour ne pas avoir de noms farfelus et surtout pour n epas avoir de noms trop longs #* Quand on travaille dans le projet Archaea la proc OiDomain rend Archaea 061537efa2d78f54c3126825d7490cd2d6586223 3043 3042 2018-01-23T20:39:46Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé OiDomain dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le (petit) nom d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place OiCode et OIDomain ... et OiCodeForOiDomain #* OiCode quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# il crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# il nomme les fasta des protéomes qui seront stockés dans ./NotaBene 93d97d2e54ad5b35d441342656c3cf29d61a5a41 3044 3043 2018-01-23T20:47:33Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé OiDomain dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le (petit) nom d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place OiCode et OIDomain ... et OiCodeForOiDomain #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# il crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# il donne un petit nom (d'où le OiCode) à chaque organisme et nomme aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 es tle nom du ficheir fasta avec le TaxId à la fin après le _ (important pour la suite) Bles fasta des protéomes qui seront stockés dans ./NotaBene/ 30cf10a0610345eaa546045a371f4a22e63c877d 3045 3044 2018-01-23T20:50:08Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le petit nom (que j'appelle '''OiCoded''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain''' #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# donne un petit nom (d'où le OiCode) à chaque organisme et nomme aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 es tle nom du ficheir fasta avec le TaxId à la fin après le _ (important pour la suite) Bles fasta des protéomes qui seront stockés dans ./NotaBene/ b92c99616d024c634e802d687a676eb854bdbeb5 3046 3045 2018-01-23T20:53:10Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le petit nom (que j'appelle '''OiCoded''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain''' #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite) #*# range le fasta dasn ./NotaBene 3557ef55a2a38fd29ec4ef3ab607a23f2f8fb5c9 3047 3046 2018-01-23T20:58:43Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le petit nom (que j'appelle '''OiCoded''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain''' #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite) #*# range le fasta dasn ./NotaBene #* '''OiDomain''' permet d'interroger le domaine ou de le positionner. #** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...) #** OiDomain est très souvent appelé pour cela d'ailleurs #* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :) e9884e7caf9bd1881717e503741f22e243bd50ae 3048 3047 2018-01-23T21:02:13Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le petit nom (que j'appelle '''OiCoded''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain''' #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite) #*# range le fasta dasn ./NotaBene #* '''OiDomain''' permet d'interroger le domaine ou de le positionner. #** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...) #** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est. #* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :) 8399216a987f76e9792b1b5771cabff44d45b103 3049 3048 2018-01-23T21:04:26Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain''' #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite) #*# range le fasta dans ./NotaBene #*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc. #* '''OiDomain''' permet d'interroger le domaine ou de le positionner. #** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...) #** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est. #* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :) ec7f3aef631585e0608bfb656e8dcc27dad39afd 3050 3049 2018-01-23T21:07:25Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain''' #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite) #*# range le fasta dans ./NotaBene #*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc. #* '''OiDomain''' permet d'interroger le domaine ou de le positionner. #** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...) #** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est. #* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :) # Une fois que tout est en place dans ./NotaBene la proc '''OiCreateOrganismXml''' Domaine crée organisms.xml dans ./NotaBene. Et Yannis est content :) b5a21077ed2bbf4c9d86b3f8f6bf1732c3a52322 3051 3050 2018-01-23T22:16:13Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain''' #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite) #*# range le fasta dans ./NotaBene #*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc. #* '''OiDomain''' permet d'interroger le domaine ou de le positionner. #** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...) #** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est. #* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :) # Une fois que tout est en place dans ./NotaBene la proc '''OiCreateOrganismXml''' Domaine crée organisms.xml dans ./NotaBene. Et Yannis est content :) Pour la création du projet Gscope Qfo ... j'ai voulu écrire le mode d'emploi et j'ai essayé ce que j'avais écrit dans la proc OiMiseEnPlace... ça a marché. Je le décrit ci-dessous Résumons : Pour Qfo ... j'ai créé le répertoire /genomics/link/OrthoInspector_Proteomes/Qfo et j'y ai mis les protéomes que Yannis avait mis dans QFO (je préfère utiliser Majuscule puis minuscules car c'est peut-être important .. je ne sais plus (j'ai d'aillleurs mis un test dans OiDomain car QFO (en majuscule) était pris en compte ... donc Yannis si tu pouvais le virer du répertoire ce serait bien)) Bref le protéomes sont bien nommés et bien créés dans ./NotaBene. Après il faut créer le projet Gscope OIQ (pour Qfo) comme on a fait pour OIT (Tranverse) OiA (Archaea) OIB (Bacteria) ATTENTION les Eukaryota c'est bêtement OI et pas OIE (c'était le premier). Tout est noté dans la proc MiseEnplace (gscope_orthoinspector.tcl) La proc OiSplit crée et rempli oip (c'est magique) Dans oip on met les blocs de proteome mais au lieu de les grouper par paquet de 500 il vaut mieux les mettre par organisme.. c'est d'aiilleurs par défaut maintenant car proc OiSplitSize le fait :) Voilà je copie ce mail dans le Wiki fb07cac948f3ddf714b5c67c447520daeb154a12 3052 3051 2018-01-23T22:17:10Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain''' #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite) #*# range le fasta dans ./NotaBene #*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc. #* '''OiDomain''' permet d'interroger le domaine ou de le positionner. #** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...) #** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est. #* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :) # Une fois que tout est en place dans ./NotaBene la proc '''OiCreateOrganismXml''' Domaine crée organisms.xml dans ./NotaBene. Et Yannis est content :) Pour la création du projet Gscope Qfo ... j'ai voulu écrire le mode d'emploi et j'ai essayé ce que j'avais écrit dans la proc OiMiseEnPlace... ça a marché. Je le décris en résumé ci-dessous Résumons : Pour Qfo ... j'ai créé le répertoire /genomics/link/OrthoInspector_Proteomes/Qfo et j'y ai mis les protéomes que Yannis avait mis dans QFO (je préfère utiliser Majuscule puis minuscules car c'est peut-être important .. je ne sais plus (j'ai d'aillleurs mis un test dans OiDomain car QFO (en majuscule) était pris en compte ... donc Yannis si tu pouvais le virer du répertoire ce serait bien)) Bref le protéomes sont bien nommés et bien créés dans ./NotaBene. Après il faut créer le projet Gscope OIQ (pour Qfo) comme on a fait pour OIT (Tranverse) OiA (Archaea) OIB (Bacteria) ATTENTION les Eukaryota c'est bêtement OI et pas OIE (c'était le premier). Tout est noté dans la proc MiseEnplace (gscope_orthoinspector.tcl) La proc OiSplit crée et rempli oip (c'est magique) Dans oip on met les blocs de proteome mais au lieu de les grouper par paquet de 500 il vaut mieux les mettre par organisme.. c'est d'aiilleurs par défaut maintenant car proc OiSplitSize le fait :) cec495da3aaa33dd32ee5d0c3c35186e694a1a53 3053 3052 2018-01-23T22:26:09Z Ripp 1 wikitext text/x-wiki OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus. La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc. ===Comment ça marche=== voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl # Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/ #* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus #* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin) #* Yannis y dépose les protéomes de chaque organisme #* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens # Comment gérer tous les noms des organismes ? #* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons #* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain''' #* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) : #*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene #*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta : #*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre) #*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite) #*# range le fasta dans ./NotaBene #*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc. #*#* OiCode ListOfAll OX ou OiCode ListOfAll OI ou OiCode ListOfAll OS ou OiCode ListOfAll OW ou OiCode ListOfAll Info #*#* OiCode EHomsa FullFilePath ou OiCode EHomsa OX etc. #* '''OiDomain''' permet d'interroger le domaine ou de le positionner. #** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...) #** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est. #* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :) # Une fois que tout est en place dans ./NotaBene la proc '''OiCreateOrganismXml''' Domaine crée organisms.xml dans ./NotaBene. Et Yannis est content :) Pour la création du projet Gscope Qfo ... j'ai voulu écrire le mode d'emploi et j'ai essayé ce que j'avais écrit dans la proc OiMiseEnPlace... ça a marché. Je le décris en résumé ci-dessous Résumons : Pour Qfo ... j'ai créé le répertoire /genomics/link/OrthoInspector_Proteomes/Qfo et j'y ai mis les protéomes que Yannis avait mis dans QFO (je préfère utiliser Majuscule puis minuscules car c'est peut-être important .. je ne sais plus (j'ai d'aillleurs mis un test dans OiDomain car QFO (en majuscule) était pris en compte ... donc Yannis si tu pouvais le virer du répertoire ce serait bien)) Bref le protéomes sont bien nommés et bien créés dans ./NotaBene. Après il faut créer le projet Gscope OIQ (pour Qfo) comme on a fait pour OIT (Tranverse) OiA (Archaea) OIB (Bacteria) ATTENTION les Eukaryota c'est bêtement OI et pas OIE (c'était le premier). Tout est noté dans la proc MiseEnplace (gscope_orthoinspector.tcl) La proc OiSplit crée et rempli oip (c'est magique) Dans oip on met les blocs de proteome mais au lieu de les grouper par paquet de 500 il vaut mieux les mettre par organisme.. c'est d'aiilleurs par défaut maintenant car proc OiSplitSize le fait :) bf8109db3fa229b3259ac0d5f682dafe97bf75c9 Café des sciences 0 1322 3056 3031 2020-03-11T09:41:41Z Ripp 1 wikitext text/x-wiki Café des sciences (développé par Thiébaut Mochel et Raymond Ripp) On dirait une usine à gaz mais ça marche du tonnerre depuis 1999. Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences ==Principe== La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente. Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat. Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer. Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' : ''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. '' ''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…'' ''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.'' ''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).'' ''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.'' Nous avons implémenté ce concept en utilisant le système de sockets. Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer. Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents. La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation. Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope. L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées. Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable. L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI. ==Utilisation== dans la suite : HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée PORT (optionnel) est par défaut 20000 SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte ====en langage de commande==== * question_de_science HOST:PORT:SCIENCE COMMANDE * qds HOST:PORT:SCIENCE COMMANDE on peut mettre, par exemple qds Pabyssi ListeDesPABs > MesORFs.txt ====dans gscope==== * QuestionDeScience HOST:PORT:SCIENCE COMMANDE set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025] ====par web==== * http://lbgi.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3 * http://lbgi.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ 06bd34ff15ff12cf45a73e820dcf5bd32e677dca Main Page 0 1279 3057 3025 2020-03-11T09:42:52Z Ripp 1 wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor * [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]] ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] d5a63e1b3a1d4e2c354baccb92ca842d8ef3ce6c Wscope 0 1429 3058 2766 2020-07-13T09:05:48Z Ripp 1 wikitext text/x-wiki Wscope is the web interface of [[Gscope]] It runs as cgi-bin and has access to almost all procedures of Gscope http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure) * http://lbgi.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed * http://lbgi.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi) * http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi) * http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files from directory fiches (FicheMoi) * http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&RechercheMoi allow textual or blast searching (RechercheMoi) ==GuideMoi== The most common possible actions are listed BUT The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc) <source lang=tcl> #put here the link and the text todispaly (separated by as many tabulations as you want, at least 1) # line starting with # are skiped # empty link and/or text are allowed #Link Texte [LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature [WscopeScience]&Signal All Signals [WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos ) [WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes [WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics [WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits [WscopeScience]&AffichePof&AllPs All existing oligos [WscopeScience]&AfficheVirtualPPCR All PCR products [WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR) [WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST) [WscopeScience]&SpineSummaryOnWeb Spine Targets Summary [WscopeScience]&OliWeb Order oligos (not yet available) </source> ==FileMoi== As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui]) <source lang=tcl> #rR WscopeLinksFileMoi.txt #Ref Text [WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b> [WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b> [WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b> [LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage </source> ==RechercheMoi== A textual search is done in all infos/BOXxxx files The Blast search is done in the blast databases found in banques/ (see [[Blast On Gscope Project]]) 7084b4ec06237a860c8577087799d49d06ffeacc 3059 3058 2020-07-13T09:07:34Z Ripp 1 wikitext text/x-wiki Wscope is the web interface of [[Gscope]] It runs as cgi-bin and has access to almost all procedures of Gscope http://lbgi.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure) * http://lbgi.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed * http://lbgi.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi) * http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi) * http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files from directory fiches (FicheMoi) * http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&RechercheMoi allow textual or blast searching (RechercheMoi) ==GuideMoi== The most common possible actions are listed BUT The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc) <source lang=tcl> #put here the link and the text todispaly (separated by as many tabulations as you want, at least 1) # line starting with # are skiped # empty link and/or text are allowed #Link Texte [LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature [WscopeScience]&Signal All Signals [WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos ) [WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes [WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics [WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits [WscopeScience]&AffichePof&AllPs All existing oligos [WscopeScience]&AfficheVirtualPPCR All PCR products [WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR) [WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST) [WscopeScience]&SpineSummaryOnWeb Spine Targets Summary [WscopeScience]&OliWeb Order oligos (not yet available) </source> ==FileMoi== As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui]) <source lang=tcl> #rR WscopeLinksFileMoi.txt #Ref Text [WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b> [WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b> [WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b> [LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage </source> ==RechercheMoi== A textual search is done in all infos/BOXxxx files The Blast search is done in the blast databases found in banques/ (see [[Blast On Gscope Project]]) 59251b2912340d1a5a9c0cd85a04f09b3063b98e GeneQuid 0 1449 3060 2020-07-15T16:31:59Z Ripp 1 Created page with "GeneQuid est une implémentation du [CafeDesSciences] qui permet d'interroger rapidemetn et facilement les bases de données UniprotData, InterproData (entre autres...)" wikitext text/x-wiki GeneQuid est une implémentation du [CafeDesSciences] qui permet d'interroger rapidemetn et facilement les bases de données UniprotData, InterproData (entre autres...) a4196ac66fea513a2fdaf55804b94b0d246f1efe 3061 3060 2020-07-15T16:44:07Z Ripp 1 wikitext text/x-wiki GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 qgq signifie Question à GeneQuid * directement en Tcl GeneQuid UniprotData P12345 * par web http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345 5becd04b90abef195a7aacea4a1cab7bc3f6fc95 3062 3061 2020-07-15T16:44:56Z Ripp 1 wikitext text/x-wiki GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... GeneQuid s'utilise # en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 qgq signifie Question à GeneQuid # directement en Tcl GeneQuid UniprotData P12345 # par web http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345 714e5602e30d55be2a6d051c1caa661f20beb5e2 3063 3062 2020-07-15T16:46:21Z Ripp 1 wikitext text/x-wiki GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345 758f1ab9e9939e07c2249e9d52b7506a6aacfc46 3064 3063 2020-07-15T16:55:47Z Ripp 1 wikitext text/x-wiki GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences Pour voir ce qui est disponible qgq Help 0e3a86d372264fe915381eb48977aead78fdd248 3065 3064 2020-07-15T16:57:47Z Ripp 1 wikitext text/x-wiki GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences Pour voir ce qui est disponible qgq Help les procédures qui sont listées snt appelable avec les paramètres indiqués, le petit help qui suit donne quelques exemples be40596c582417161995e51cbb7a4a777d68280f 3066 3065 2020-07-15T16:58:57Z Ripp 1 wikitext text/x-wiki GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 http://lbgi.fr/wscoperr?GeneQuid&Help En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences Pour voir ce qui est disponible http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées snt appelable avec les paramètres indiqués, le petit help qui suit donne quelques exemples 3cad7a68d4863cbce9839edfe1f319579e50343e 3067 3066 2020-07-15T17:00:33Z Ripp 1 wikitext text/x-wiki GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... =Résumé= Pour voir ce qui est disponible http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées snt appelable avec les paramètres indiqués, le petit help qui suit donne quelques exemples =Comment ça marche= GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences fe10f19bc525c2ad7b0933e3baecf264e4a052b5 3068 3067 2020-07-15T17:01:08Z Ripp 1 wikitext text/x-wiki GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... =Résumé= Pour voir ce qui est disponible http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit donne quelques exemples =Comment ça marche= GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences 93cccd9df4edd8da22410ef935324fbed815e71a 3069 3068 2020-07-15T17:02:13Z Ripp 1 wikitext text/x-wiki GeneQuid est une implémentation en [[Café des sciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... =Résumé= Pour voir ce qui est disponible http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit donne quelques exemples =Comment ça marche= GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences eec7289be0083a0e124729fbe7838fe561091ac3 3070 3069 2020-07-15T17:05:17Z Ripp 1 wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... =Résumé= Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit donne quelques exemples =Comment ça marche= GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences ne fait que de lancer genequid en café des sciences a54a9e7f972fc4b3d54d2050c2f1fc005d7ac794 3071 3070 2020-07-15T17:06:01Z Ripp 1 wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... =Résumé= Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples =Comment ça marche= GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences ne fait que de lancer genequid en café des sciences 6a039f00f2b29acc1f34677adc73160df336dece 3079 3071 2020-09-14T16:04:08Z Ripp 1 wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... =Résumé= Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples =Comment ça marche= GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences ne fait que de lancer genequid en café des sciences ac3fd250f288fdfa9cc837a488a20544d3c0491e 3080 3079 2020-09-14T16:05:15Z Ripp 1 wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... ==Résumé== Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniprotData P12345 qgq utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== b944692591ef715dedbc607001a08643b733dab3 3081 3080 2020-09-14T16:19:41Z Ripp 1 wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... ==Résumé== Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniprotData P12345 qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro, Ce serait bien qu'il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update Il faut alors créer les idx et les bases Sqlite ... pour cela : cd /commun/bics/UniProt/update gunzip Uniprot.dat.gz #rR on dezipe setgenequidrr #rR on va travailler en local genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences cd .. mv production toto #rR avec des liens ce serait mieux ... mv update production mv toto update qgq UniprotData P12345 #rR c'est reparti ! eae647bc04f1a43836722269e7eaad72e14b8d09 3082 3081 2020-09-14T16:22:36Z Ripp 1 wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... ==Résumé== Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniprotData P12345 qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro, Ce serait bien qu'il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update Il faut alors créer les idx et les bases Sqlite ... pour cela : cd /commun/bics/UniProt/update gunzip Uniprot.dat.gz #rR on dezipe setgenequidrr #rR on va travailler en local genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences cd .. mv production toto #rR avec des liens ce serait mieux ... mv update production mv toto update qgq UniprotData P12345 #rR c'est reparti ! chmod -R 775 * #rR pour que tout le monde puisse les effacer Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz 3f3086737a10d8a71645e1c7d218caa008494791 3083 3082 2020-10-23T16:12:33Z Ripp 1 /* Pour les mises à jour */ wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... ==Résumé== Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniprotData P12345 qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro, Ce serait bien qu'il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update Il faut alors créer les idx et les bases Sqlite ... pour cela : cd /commun/bics/UniProt/update #rR unzip Uniprot.dat.gz #rR on dezipe maittenatn dans genequid setgenequidrr #rR on va travailler en local genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences cd .. mv production toto #rR avec des liens ce serait mieux ... mv update production mv toto update qgq UniprotData P12345 #rR c'est reparti ! chmod -R 775 * #rR pour que tout le monde puisse les effacer Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz b71f643832051ad56761ccac217ac3d622d3100f 3084 3083 2020-10-23T16:13:03Z Ripp 1 /* Pour les mises à jour */ wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... ==Résumé== Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniprotData P12345 qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro, Ce serait bien qu'il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update Il faut alors créer les idx et les bases Sqlite ... pour cela : cd /commun/bics/UniProt/update #rR unzip Uniprot.dat.gz #rR on dezipe maintenant dans genequid setgenequidrr #rR on va travailler en local genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences cd .. mv production toto #rR avec des liens ce serait mieux ... mv update production mv toto update qgq UniprotData P12345 #rR c'est reparti ! chmod -R 775 * #rR pour que tout le monde puisse les effacer Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz 11544ca3946d2f6fa063f4ca5e107bd71c9aa87e UniprotData 0 1450 3072 2020-07-15T17:19:46Z Ripp 1 Created page with "UniprotData est la base de donnée Uniprot regroupant ici les fiches Embl de tout Swissprot et Trembl le programme [[GeneQuid]] permet l'interrogation rapide. GeneQuid a fai..." wikitext text/x-wiki UniprotData est la base de donnée Uniprot regroupant ici les fiches Embl de tout Swissprot et Trembl le programme [[GeneQuid]] permet l'interrogation rapide. GeneQuid a fait l'indexation des ID et AC de toutes les fiches, et rend instantannément la ou les fiches ou champs qui lui sont demandés. GeneQuid lit les 543GO de Uniprot.dat et crée un index (de 14GO) avec pour chaque ID ou AC la position dans ce ficher du début et de la fin de la fiche. Puis il crée une base Sqlite (22GO) avec cet index. En fonctionnement normal il ne se sert que du fichier Sqlite qui est lui-même indexé. e4ef66e44bf1e4302e7c919a9e074347a8bcaa3f 3073 3072 2020-07-15T17:23:08Z Ripp 1 wikitext text/x-wiki UniprotData est la base de donnée Uniprot regroupant ici les fiches Embl de tout Swissprot et Trembl le programme [[GeneQuid]] permet l'interrogation rapide. Lors de la création de la base GeneQuid lit les 543GO de Uniprot.dat et crée un index (de 14GO) avec pour chaque ID ou AC la position dans ce ficher du début et de la fin de la fiche. Puis il crée une base Sqlite (22GO) avec cet index. En fonctionnement normal GeneQuid ne se sert que du fichier Sqlite qui est lui-même indexé ce qui lui permet de rendre instantannément la ou les fiches ou champs qui lui sont demandés, et ce même s'il ne tournait pas lors de l'appel. GeneQuid peut s'appeler en ligne de commande, en appel de procédure dans Gscope ou en web lbgi.fr://wscoperr?GeneQuid&Help c95b538e6ebee1f396c47c3cffe2351f1b6623a8 3074 3073 2020-07-15T17:23:28Z Ripp 1 wikitext text/x-wiki UniprotData est la base de donnée Uniprot regroupant ici les fiches Embl de tout Swissprot et Trembl le programme [[GeneQuid]] permet l'interrogation rapide. Lors de la création de la base GeneQuid lit les 543GO de Uniprot.dat et crée un index (de 14GO) avec pour chaque ID ou AC la position dans ce ficher du début et de la fin de la fiche. Puis il crée une base Sqlite (22GO) avec cet index. En fonctionnement normal GeneQuid ne se sert que du fichier Sqlite qui est lui-même indexé ce qui lui permet de rendre instantannément la ou les fiches ou champs qui lui sont demandés, et ce même s'il ne tournait pas lors de l'appel. GeneQuid peut s'appeler en ligne de commande, en appel de procédure dans Gscope ou en web http://lbgi.fr/wscoperr?GeneQuid&Help c70614b7080f7173527a917f50102a5b6fe129b4 InterproData 0 1451 3075 2020-07-15T17:43:36Z Ripp 1 Created page with "InterproData est interrogeable par [[GeneQuid]]. On rend les références InterPro d'un Id ou AC UniProt Ellle est créée et traitée comme [[UniprotData]]" wikitext text/x-wiki InterproData est interrogeable par [[GeneQuid]]. On rend les références InterPro d'un Id ou AC UniProt Ellle est créée et traitée comme [[UniprotData]] 9f612d482ddb0718bf2b0cf732b274030b00fccb EleGen 0 1452 3076 2020-07-15T17:47:41Z Ripp 1 Created page with "EleGen Eléments Génomiques .. Pour Homo sapiens C'est une procédure de [[gscope]] qui marche à merveille ! EleGen permet d'interrgoger les annotations des ELEments du..." wikitext text/x-wiki EleGen Eléments Génomiques .. Pour Homo sapiens C'est une procédure de [[gscope]] qui marche à merveille ! EleGen permet d'interrgoger les annotations des ELEments du GENome EleGen Chr01 X ListOf Gn EleGen Chr01 X NOTCH2 ListOfD EleGen Chr01 X NOTCH2 ListOfF EleGen Chr01 X NOTCH2 ListOfId EleGen Chr01 X ListOf Id EleGen Chr01 X ListOf All EleGen Chr01 X exon:57053 D EleGen Chr01 6 ListOf Id ^ the type can be 0 1 2 3 4 5 6 7 8 9 X 1049e340c4ae257c809d50f99db3a01f3aa86438 3077 3076 2020-07-15T17:51:10Z Ripp 1 wikitext text/x-wiki EleGen Eléments Génomiques .. Pour Homo sapiens C'est une procédure de [[gscope]] qui marche à merveille ! EleGen permet d'interrgoger les annotations des ELEments du GENome EleGen Chr01 X ListOf Gn EleGen Chr01 X NOTCH2 ListOfD EleGen Chr01 X NOTCH2 ListOfF EleGen Chr01 X NOTCH2 ListOfId EleGen Chr01 X ListOf Id EleGen Chr01 X ListOf All EleGen Chr01 X exon:57053 D EleGen Chr01 6 ListOf Id ^ the type can be 0 1 2 3 4 5 6 7 8 9 X utilisable en procédure normale ou * par le [[Café des sciences]] qds Zero EleGen Chr01 X ListOf Id * ou en web http://lbgi.fr/wscoperr?Zero&EleGen&Chr01&X&ListOf&Gn b90be5a1e3957ca952da465a818723c911df6221 3078 3077 2020-07-20T13:14:01Z Ripp 1 wikitext text/x-wiki EleGen Eléments Génomiques .. Pour Homo sapiens C'est une procédure de [[gscope]] qui marche à merveille ! EleGen permet d'interrgoger les annotations des ELEments du GENome EleGen Chr01 X ListOf Gn EleGen Chr01 X NOTCH2 ListOfD EleGen Chr01 X NOTCH2 ListOfF EleGen Chr01 X NOTCH2 ListOfId EleGen Chr01 X ListOf Id EleGen Chr01 X ListOf All EleGen Chr01 X exon:57053 D EleGen Chr01 6 ListOf Id ^ the type can be 0 1 2 3 4 5 6 7 8 9 X #rR X=exon 9=FirstExon 8=5UTR 7=3UTR 6=Boundary 5=Promoter 4=Intron 3=1to5kb 2=Enhancer 1=Intergen (voir AnnotType) #rR On crée aussi un Final qui contient ces types en mettant en priorité X puis 9 puis 8 ... #rR le 9 8 7 sont sytématiquement écrasés par X car ce sont aussi des eXons utilisable en procédure normale ou * par le [[Café des sciences]] qds Zero EleGen Chr01 X ListOf Id * ou en web http://lbgi.fr/wscoperr?Zero&EleGen&Chr01&X&ListOf&Gn 5e0e838aa8e49905ad56422a7024778ef905556e GeneQuid 0 1449 3085 3084 2020-10-23T16:15:34Z Ripp 1 /* Pour les mises à jour */ wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... ==Résumé== Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniprotData P12345 qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== ATTENTION C'EST PAS EXACTEMENT COMME CA QUE CA SE PASSE ... Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro, Il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update Puis il lance la suite ... pour créer les idx et les bases Sqlite ... pour cela : cd /commun/bics/UniProt/update #rR unzip Uniprot.dat.gz #rR on dezipe maintenant dans genequid setgenequidrr #rR on va travailler en local genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences cd .. mv production toto #rR avec des liens ce serait mieux ... mv update production mv toto update qgq UniprotData P12345 #rR c'est reparti ! chmod -R 775 * #rR pour que tout le monde puisse les effacer Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz 45057e93286c4e54aacdef711e1cb40c66da60b6 3086 3085 2020-10-26T15:56:08Z Ripp 1 wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... Mais il peut aussi être appelé par un tout programme tcl source [GeneQuidDir]/genequid_proc.tcl ; /home/ripp/wscoperr/genequid ou /biolo/wscope/genequid set Reponse [Genequid UniprotData P12345] ==Résumé== Pour voir ce qui est disponible (principalement UniprotData et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniprotData P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniprotData P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniprotData P12345 qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== ATTENTION C'EST PAS EXACTEMENT COMME CA QUE CA SE PASSE ... Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro, Il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update Puis il lance la suite ... pour créer les idx et les bases Sqlite ... pour cela : cd /commun/bics/UniProt/update #rR unzip Uniprot.dat.gz #rR on dezipe maintenant dans genequid setgenequidrr #rR on va travailler en local genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences cd .. mv production toto #rR avec des liens ce serait mieux ... mv update production mv toto update qgq UniprotData P12345 #rR c'est reparti ! chmod -R 775 * #rR pour que tout le monde puisse les effacer Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz 53924790e65f07fd86c69cc6f164d6a608ea7009 3087 3086 2020-10-28T09:42:16Z Ripp 1 wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... Mais il peut aussi être appelé par un tout programme tcl source [GeneQuidDir]/genequid_proc.tcl ; /home/ripp/wscoperr/genequid ou /biolo/wscope/genequid set Reponse [Genequid UniProt P12345] ==Résumé== Pour voir ce qui est disponible (principalement UniProt et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniProt P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniProt P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniProt P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniProt&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniProt P12345 qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== ATTENTION C'EST PAS EXACTEMENT COMME CA QUE CA SE PASSE ... Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro, Il dépose uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update et lance en interne GeneQuid sur pour créer les .idx et .dbsql Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz 3cfe4b71620720c69d8e9451e1d50670669631b2 3088 3087 2020-10-28T09:43:41Z Ripp 1 /* Pour les mises à jour */ wikitext text/x-wiki GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... Mais il peut aussi être appelé par un tout programme tcl source [GeneQuidDir]/genequid_proc.tcl ; /home/ripp/wscoperr/genequid ou /biolo/wscope/genequid set Reponse [Genequid UniProt P12345] ==Résumé== Pour voir ce qui est disponible (principalement UniProt et InterproData) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniProt P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniProt P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniProt P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniProt&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniProt P12345 qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro, Il dépose uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update et lance en interne GeneQuid sur pour créer les .idx et .dbsql puis balance tout dans ./production Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz 075fb65e92cf42135a8979d9ffaaa147719b6e3c 3089 3088 2020-10-28T10:45:29Z Ripp 1 wikitext text/x-wiki Attention InterproData est maintenant InterPro, de même UniprotData est UniProt ou UniProtSw ou UniProtTrembl GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres... Mais il peut aussi être appelé par un tout programme tcl source [GeneQuidDir]/genequid_proc.tcl ; /home/ripp/wscoperr/genequid ou /biolo/wscope/genequid set Reponse [Genequid UniProt P12345] ==Résumé== Pour voir ce qui est disponible (principalement UniProt et InterPro) http://lbgi.fr/wscoperr?GeneQuid&Help les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples ==Comment ça marche== GeneQuid s'utilise * en ligne de commande /biolo/wscope/genequid/bin/qdsgenequid UniProt P12345 ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash) qgq UniProt P12345 (qgq signifie Question à GeneQuid) * directement en Tcl GeneQuid UniProt P12345 * par web http://lbgi.fr/wscoperr?GeneQuid&UniProt&P12345 En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope) ON peut faire setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple) genequid puts Help genequid puts UniProt P12345 qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences ==Pour les mises à jour== Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro, Il dépose uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update et lance en interne GeneQuid sur pour créer les .idx et .dbsql puis balance tout dans ./production Même chose pour InterPro le fichier à dézipper est protein2ipr.dat.gz 7615aa5c34a0583459ee31d26ba7d262238d45a4 Main Page 0 1279 3090 3057 2021-09-22T12:19:37Z Ripp 1 /* Thématiques et Projets */ wikitext text/x-wiki La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond ==[[LBGI]]== Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe. LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives ==Progiciels== [[Quel outil utilise quel outil]] ? * [[BIRD]] Biological Integration and Retrivial Data * [[Gscope]] en général ** ... et [[Gscope Clonage]] en particulier * [[Café des sciences]] * [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning * obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot. * [[MACSIMS]] * [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine .. * [[String]] nos outils pour s'en servir facilement * [[Vep]] Variant Effect Predictor * [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]] ==Serveur et données== * [[Configuration minimale]] * [[Installation PHP]] * Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]] * [[Source de données]] ... tous nos serveurs et bases de données * Tout sur [[UCSCGenomes]] ==Thématiques et Projets== Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS] * [[MicroVesicles]] stage de Anaïs Nicol * [[Alvinella]] * [[Fed]] Federating data a common achitecture to manage websites such as ** [http://genoret.igbmc.fr/genoret/wiki Genoret] ** [[CSTB]] ** [[DBGS]] ** [[Gx]] and its database [[GxDb]] ** [[IdV]] for the Institut de la Vision * [[ImAnno]] a web based annotation tool with a powerfull search engine * [[GenoretGenes]] * [[RetinoBase]] * [[CADO4MI]] * [[MAGOS]] * [[JavOO]] ==Outils programmation et Unix== * [[ssh]] * [[Tcl/Tk]] * [[Java]] * [[Unix| aide Unix]] * [[Html et Javascript]] * [[logiciels]] disponibles sur les serveurs. * [[Bibliothèque interne]] ac99b482db74682b0f98fc3cd866d1d331bb6b18